如何构建训练集和测试集 成什么比例

 我来答
111尚属首次
2016-09-27 · TA获得超过6.8万个赞
知道大有可为答主
回答量:1.1万
采纳率:91%
帮助的人:4915万
展开全部
[size=14.399999618530273px]做分类预测等数据挖掘任务时,需要测试所建立模型的准确性时,如没有事先划分好的训练集与测试集,常采用的方案有。
[size=14.399999618530273px] A. 随机划分数据集:将数据集随机划分成训练集和测试集,一般按照3:1的比例划分,其中3/4的数据集用于模型的建立,1/4数据集用于测试所建立模型的性能。最终模型的性能,通过K次随机划分数据集,可以得到K次划分的模型性能的平均值,作为建立模型的性能。
[size=14.399999618530273px] B. 交叉检验(Cross-Validation):交叉检验,是按一定的方式将数据集划分成训练集和测试集,每个数据记录既有作为训练集,又有作为测试集。常用的交叉检验有:
[size=14.399999618530273px] 》Leave One Out Cross-Validation:每次选择一个数据作为测试集,其余的N-1个作为训练集用于测试模型的性能,共执行N次测试,N次测试的结果作为最终模型的性能;
[size=14.399999618530273px] 》K-Fold Cross-Validation:将数据集划分成K份,每次是其中的k-1份作为训练集建立模型,剩余的1份作为测试集检测模型性能,共执行K次性能测试。常用的是10折交叉检验,或采用随机划分数据集法将数据集划分成K份,此时可采用K-ford M-time Cross-Validation。
爱我家菜菜
2016-09-26 · TA获得超过10万个赞
知道大有可为答主
回答量:1.5万
采纳率:3%
帮助的人:5925万
展开全部
在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(train set),验证集(validation set ) 和测试集(test set)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。
本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式