问文本分类:原始字典输入和文本向量化
EN

Stack Overflow用户

提问于 2019-06-03 19:24:04

回答 1查看 24关注 0票数 0

我正在使用一系列sklearn分类器进行一些文本处理。在我在互联网上找到的example中，我注意到分类器的输入是一系列字典条目：

({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')

({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')

这些项目被传递到分类模型中(例如，sklearn LinearSVC)。我在sklearn网站上发现，在文本分类中，文本数据会使用某种技术(例如HashingVectorizer )转换为向量，但我找不到任何有关如何处理上述字典输入的文档。有没有可能解释一下在这种输入情况下需要遵循的步骤？

发布于 2019-06-04 17:24:11

根据documentation，它对它获得的文本进行标记化(您可以自定义如何对文本进行标记化，一个正则表达式告诉您认为要省略的单词和停用词列表)，并为每个幸存下来的标记计算散列，这是一个介于0和n_features (向量器的另一个参数)之间的数字。

与CountVectorizer不同的是，您总是确信，您确实拥有n_features特性，但您确实存在散列冲突的风险。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56426352

复制

相似问题

问文本分类:原始字典输入和文本向量化EN