我需要在两个包含约x的语料库上训练一个朴素贝叶斯分类器。每人15,000枚代币。我正在使用一个带有二进制标记的基本词袋特征提取器,我想知道如果这样一个应用程序要获得很多用户,NLTK是否足够强大,可以处理所有这些数据,而不会显着降低运行时间。该程序基本上是对可能来自数千名用户的常规文本信息流进行分类。如果NLTK不合适,你还推荐其他的机器学习包集成到NLTK吗?
发布于 2011-10-14 03:59:49
你的语料库不是很大,所以NLTK应该可以做这项工作。然而,我一般不推荐它,它相当慢,而且在某些地方有buggy。Weka是一个更强大的工具,但它可以做的更多的事实使它更难理解。如果您只打算使用朴素贝叶斯,那么您自己编写它可能是最快的。
编辑(很久以后):
试试scikit-learn,它非常容易使用。
https://stackoverflow.com/questions/7531812
复制相似问题