首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >新闻文章的多级分类算法

新闻文章的多级分类算法
EN

Stack Overflow用户
提问于 2014-03-29 17:19:29
回答 2查看 1.4K关注 0票数 2

我想把这篇新闻文章归类为它所属的类别。我有4类新闻,例如“技术、体育、政治和健康”。我已经为每一类收集了大约50份文件,作为一个培训集。

**培训数据是否足以进行分类?我应该使用哪种算法进行分类?支持向量机,随机森林,Knn,?

我正在使用Scikit-学习http://scikit-learn.org/ python库来完成我的任务。

谢谢

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-03-29 18:10:25

有很多方法来解决这个问题,从CRF到随机森林。

在你有限的训练数据下,我建议使用一个高偏差的模型,比如线性支持向量机。首先训练一个和每个类的所有模型,并预测可能是最高的类。这将为您提供一个基准,说明您的问题与给定的培训数据有多难。

票数 3
EN

Stack Overflow用户

发布于 2014-07-15 09:22:34

我更喜欢你用朴素的贝叶斯分类。有一个叫做凌管的工具,这个工具已经实现了。你想做的就是

http://alias-i.com/lingpipe/demos/tutorial/classify/read-me.html

这里有一个小示例程序Classifynews.java。通过训练数据运行该程序并应用测试.A培训数据示例,作为“20个新闻组”。

http://qwone.com/~jason/20Newsgroups/

培训可以通过培训数据来应用,如果需要,您可以构建一个中间模型,然后将测试数据应用到该模型中。朴素-贝叶斯是好的情况下,培训数据是小的。

但其准确性随着训练数据的增加而增加。所以尽量包括更多的新闻集团。祝好运。试试这个,让我知道

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22734248

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档