我正在使用一系列sklearn分类器进行一些文本处理。在我在互联网上找到的example中,我注意到分类器的输入是一系列字典条目:
({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')
({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')
这些项目被传递到分类模型中(例如,sklearn LinearSVC)。我在sklearn网站上发现,在文本分类中,文本数据会使用某种技术(例如HashingVectorizer )转换为向量,但我找不到任何有关如何处理上述字典输入的文档。有没有可能解释一下在这种输入情况下需要遵循的步骤?
发布于 2019-06-04 17:24:11
根据documentation,它对它获得的文本进行标记化(您可以自定义如何对文本进行标记化,一个正则表达式告诉您认为要省略的单词和停用词列表),并为每个幸存下来的标记计算散列,这是一个介于0和n_features (向量器的另一个参数)之间的数字。
与CountVectorizer不同的是,您总是确信,您确实拥有n_features特性,但您确实存在散列冲突的风险。
https://stackoverflow.com/questions/56426352
复制相似问题