我想把这篇新闻文章归类为它所属的类别。我有4类新闻,例如“技术、体育、政治和健康”。我已经为每一类收集了大约50份文件,作为一个培训集。
**培训数据是否足以进行分类?我应该使用哪种算法进行分类?支持向量机,随机森林,Knn,?
我正在使用Scikit-学习http://scikit-learn.org/ python库来完成我的任务。
谢谢
发布于 2014-03-29 18:10:25
有很多方法来解决这个问题,从CRF到随机森林。
在你有限的训练数据下,我建议使用一个高偏差的模型,比如线性支持向量机。首先训练一个和每个类的所有模型,并预测可能是最高的类。这将为您提供一个基准,说明您的问题与给定的培训数据有多难。
发布于 2014-07-15 09:22:34
我更喜欢你用朴素的贝叶斯分类。有一个叫做凌管的工具,这个工具已经实现了。你想做的就是
http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html
这里有一个小示例程序Classifynews.java。通过训练数据运行该程序并应用测试.A培训数据示例,作为“20个新闻组”。
http://qwone.com/~jason/20Newsgroups/
培训可以通过培训数据来应用,如果需要,您可以构建一个中间模型,然后将测试数据应用到该模型中。朴素-贝叶斯是好的情况下,培训数据是小的。
但其准确性随着训练数据的增加而增加。所以尽量包括更多的新闻集团。祝好运。试试这个,让我知道
https://stackoverflow.com/questions/22734248
复制相似问题