问Mahout分类器诉OpenNLP文档分类器
EN

Stack Overflow用户

提问于 2013-10-28 15:46:01

回答 1查看 1K关注 0票数 3

我正处在一个十字路口，我一直在使用Mahout对一些文档进行分类，并偶然发现了OpenNLP文档分类器。

他们似乎做了非常相似的事情，我不知道是否值得转换我目前用mahout编写的内容，并提供一个OpenNLP实现。

在文档分类方面，mahout是否比OpenNLP有明显的优势？

我的情况是，我有几十万篇新闻文章，我只想提取其中的一个子集。Mahout做得相当好，我使用朴素的Bayes作为术语计数，然后TF-国防军来确定这些文档属于哪一类。当发现新的文章时，模型会被更新，因此模型会随着时间的推移而不断改进。

OpenNLP文档分类器似乎做了非常类似的事情(尽管我还没有测试它有多精确)。-是否有人有使用这两种方法的经验，谁能说出为什么其中一种会被使用于另一种之上？

回答已采纳

发布于 2014-02-08 21:19:16

我没有这两方面的经验，但当我试图找出其中之一是否会对个人项目产生影响的时候，我偶然发现了这个博客，我引用如下：

与mahout相比，使用OpenNLP的数据分类是另一种具有更高精度和更高性能的方法。

您可以查看博客文章这里。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19639200

复制

相似问题

问Mahout分类器诉OpenNLP文档分类器EN