我正处在一个十字路口,我一直在使用Mahout对一些文档进行分类,并偶然发现了OpenNLP文档分类器。
他们似乎做了非常相似的事情,我不知道是否值得转换我目前用mahout编写的内容,并提供一个OpenNLP实现。
在文档分类方面,mahout是否比OpenNLP有明显的优势?
我的情况是,我有几十万篇新闻文章,我只想提取其中的一个子集。Mahout做得相当好,我使用朴素的Bayes作为术语计数,然后TF-国防军来确定这些文档属于哪一类。当发现新的文章时,模型会被更新,因此模型会随着时间的推移而不断改进。
OpenNLP文档分类器似乎做了非常类似的事情(尽管我还没有测试它有多精确)。-是否有人有使用这两种方法的经验,谁能说出为什么其中一种会被使用于另一种之上?
发布于 2014-02-08 21:19:16
我没有这两方面的经验,但当我试图找出其中之一是否会对个人项目产生影响的时候,我偶然发现了这个博客,我引用如下:
与mahout相比,使用OpenNLP的数据分类是另一种具有更高精度和更高性能的方法。
您可以查看博客文章这里。
https://stackoverflow.com/questions/19639200
复制相似问题