首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对多个类别中的项目进行分类

对多个类别中的项目进行分类
EN

Stack Overflow用户
提问于 2012-08-13 18:36:54
回答 1查看 699关注 0票数 0

我正在开发一个新闻分类系统,其中一个特定的新闻项目被分配给一个组织或公司名称。例如,一条标有“苹果将于2012年9月推出新款iPhone”的新闻被归类为“苹果”新闻。到目前为止,在用苹果新闻、谷歌新闻、微软新闻、三星新闻、美国银行新闻等一系列主题训练分类器后,我从一个训练好的模型中获得了几乎99%的正确分类实例。现在的问题是把像“三星和谷歌准备攻击苹果”这样的新闻分为三个主题,“苹果”,“三星”和“谷歌”。

我这里的问题是,如何使用Mahouts分类将单个项目分类为多个类别。我在这个帖子http://mail-archives.apache.org/mod_mbox/mahout-user/201206.mbox/%3C20120607223156.GA26283@opus.istwok.net%3E中看到了类似的问题。

Ted Dunning给出了一个有趣的答案,关于为多个主题创建单独的类别,但在我的例子中,组合是很多的。我必须将新闻归类为近15,000家公司,实际上,任何新闻都可以是这15000家公司中的任何一家。因此,将组合作为单独的类别是不可能的!第二个建议是在层次结构中安排主题,这也不适用于这里,因为公司名称不会收敛到任何基本类别。

有15000个模型,15000个主题就可以做到,但听起来也不太可信!

那么,对多话题新闻进行分类的正确方法应该是什么呢?

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-08-20 19:32:26

如果您遇到多标签数据的问题,最好使用专门针对它的工具。目前,mahout不支持多标签(有一些方法可以做到这一点,但它们就像是变通的方法)。以下是一些用于对数据进行多标签处理的工具

http://mulan.sourceforge.net/

http://meka.sourceforge.net/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11932634

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档