首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于机器学习的训练数据集的大小应该是多少?

用于机器学习的训练数据集的大小应该是多少?
EN

Stack Overflow用户
提问于 2016-06-09 09:33:44
回答 1查看 1.3K关注 0票数 0

1)我想在twitter上进行情绪分析。所以,我选择使用datumbox-framework.我有点怀疑我的训练样本的大小应该是多少?&如果我正在收集积极、消极、中立的训练样本,我应该对所有的训练样本保持相同的大小吗?(也就是说,我可以收集10个pos,5个neg,15个中性作为我的训练集,或者我应该在我的训练集中收集和维护所有相同大小的pos=10;neg=10;neutral=10 )算法。是海军 Bayes

2)培训数据集是否有规模限制?

EN

回答 1

Stack Overflow用户

发布于 2016-06-09 09:50:59

培训集:用于构建模型的数据集。理想情况下,数据集不应该有偏见,而且应该包含将来可能出现的所有可能性。

训练集越大,效果越好。培训集中的测试用例越多,您的模型就越好。所以,试着覆盖尽可能多的pos,neg或中性twits。

没有理想的训练集大小。而且可能永远不会有一个训练集来预测100%的测试用例是对的,这是因为系统不理解讽刺的 :D

并且没有训练集的大小限制。

注意:训练集必须是随机的,你不能使用10 you,2 2neg,3中性等等,因为这会使它有偏差。

一般建议:使用60-70%用于培训,其余用于验证和测试。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37722084

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档