推荐系统为什么要分测试集和训练集?

 我来答
小鱼的生活笔记
高能答主

2021-11-22 · 专注于生活领域的最新咨询和生活小细节
小鱼的生活笔记
采纳数:607 获赞数:411353

向TA提问 私信TA
展开全部

原因是为了防止过度拟合。

你把所有数据都用来训练模型,建立的模型自然是最契合这些数据的,测试表现也好。但是换了其它数据集测试这个模型效果可能就没那么好了。就好像你给班上同学做校服,大家穿着都合适你就觉得按这样做就对了,那给别的班同学穿呢,不合适的概率会高吧。

总而言之训练集和测试集相同的话,模型评估结果可能比实际要好。

训练集在推荐算法中的作用

协同过滤推荐算法中的第一步就是寻找近邻用户,近邻用户的质量和数量都会影响最终的模型性能。而训练集要训练的,其实就是目标用户的近邻用户,也可以说是用户相似矩阵

举个例子就是,我们以用户张三的16个项目得出的近邻用户,和使用20个项目得出的近邻用户是不同的,而后者往往更加准确。拓展到所有用户,使用80%数据得到的用户相似矩阵,当然不如使用100%数据得到的用户相似矩阵。

但是正如第一节所说的,为了保证测试的准确性,我们必须分出来一些数据作为测试集。

富港检测技术(东莞)有限公司_
2024-06-06 广告
ISTA3L是一个基于研究、数据驱动的测试协议,它模拟了由零售公司完成的产品订单被直接运送给消费者时所经历的危险,它允许用户评估包装产品的能力,以承受运输和处理包装产品时所经历的供应链危险,从接收到任何电子商务零售商履行操作,直到最终消费者... 点击进入详情页
本回答由富港检测技术(东莞)有限公司_提供
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式