问在一个分类器中使用NLTK多个特征集？
EN

Stack Overflow用户

提问于 2012-07-13 04:28:07

回答 1查看 1.5K关注 0票数 2

在NLTK中，使用一个朴素的贝叶斯分类器，我从例子中知道它非常简单地使用“词袋”方法来查找单词和/或双词。你能用两组完全不同的特性来做同样的事情吗？

例如，我可以使用unigram和训练集的长度(我知道这里曾经提到过这一点)吗？但我更感兴趣的是文档中出现的二元语法和“二元语法”或POS词的组合？

这是否超出了基本NLTK分类器的能力范围？

谢谢，亚历克斯

nltk

python

nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-07-13 08:00:15

NLTK分类器可以与任何键值字典一起使用。我使用{"word": True}进行文本分类，但是您也可以使用{"contains(word)": 1}来实现相同的效果。您还可以将许多功能组合在一起，这样就可以拥有{"word": True, "something something": 1, "something else": "a"}。最重要的是你的特性是一致的，所以你总是有相同类型的键和一组固定的可能值。可以使用数字值，但分类器并不聪明-它会将数字视为离散值，因此99和100就像1和100一样不同。如果您希望以更智能的方式处理数字，那么我建议使用scikit-learn分类器。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11460115

复制

相似问题

问在一个分类器中使用NLTK多个特征集？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在一个分类器中使用NLTK多个特征集？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在一个分类器中使用NLTK多个特征集？
EN