1)我想在twitter上进行情绪分析。所以,我选择使用datumbox-framework.我有点怀疑我的训练样本的大小应该是多少?&如果我正在收集积极、消极、中立的训练样本,我应该对所有的训练样本保持相同的大小吗?(也就是说,我可以收集10个pos,5个neg,15个中性作为我的训练集,或者我应该在我的训练集中收集和维护所有相同大小的pos=10;neg=10;neutral=10 )算法。是海军 Bayes。
2)培训数据集是否有规模限制?
发布于 2016-06-09 09:50:59
培训集:用于构建模型的数据集。理想情况下,数据集不应该有偏见,而且应该包含将来可能出现的所有可能性。
训练集越大,效果越好。培训集中的测试用例越多,您的模型就越好。所以,试着覆盖尽可能多的pos,neg或中性twits。
没有理想的训练集大小。而且可能永远不会有一个训练集来预测100%的测试用例是对的,这是因为系统不理解讽刺的 :D
并且没有训练集的大小限制。
注意:训练集必须是随机的,你不能使用10 you,2 2neg,3中性等等,因为这会使它有偏差。
一般建议:使用60-70%用于培训,其余用于验证和测试。
https://stackoverflow.com/questions/37722084
复制相似问题