我正在开发一个新闻分类系统,其中一个特定的新闻项目被分配给一个组织或公司名称。例如,一条标有“苹果将于2012年9月推出新款iPhone”的新闻被归类为“苹果”新闻。到目前为止,在用苹果新闻、谷歌新闻、微软新闻、三星新闻、美国银行新闻等一系列主题训练分类器后,我从一个训练好的模型中获得了几乎99%的正确分类实例。现在的问题是把像“三星和谷歌准备攻击苹果”这样的新闻分为三个主题,“苹果”,“三星”和“谷歌”。
我这里的问题是,如何使用Mahouts分类将单个项目分类为多个类别。我在这个帖子http://mail-archives.apache.org/mod_mbox/mahout-user/201206.mbox/%3C20120607223156.GA26283@opus.istwok.net%3E中看到了类似的问题。
Ted Dunning给出了一个有趣的答案,关于为多个主题创建单独的类别,但在我的例子中,组合是很多的。我必须将新闻归类为近15,000家公司,实际上,任何新闻都可以是这15000家公司中的任何一家。因此,将组合作为单独的类别是不可能的!第二个建议是在层次结构中安排主题,这也不适用于这里,因为公司名称不会收敛到任何基本类别。
有15000个模型,15000个主题就可以做到,但听起来也不太可信!
那么,对多话题新闻进行分类的正确方法应该是什么呢?
谢谢!
发布于 2012-08-20 19:32:26
如果您遇到多标签数据的问题,最好使用专门针对它的工具。目前,mahout不支持多标签(有一些方法可以做到这一点,但它们就像是变通的方法)。以下是一些用于对数据进行多标签处理的工具
http://mulan.sourceforge.net/
http://meka.sourceforge.net/
https://stackoverflow.com/questions/11932634
复制相似问题