首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本分类:原始字典输入和文本向量化

文本分类:原始字典输入和文本向量化
EN

Stack Overflow用户
提问于 2019-06-03 19:24:04
回答 1查看 24关注 0票数 0

我正在使用一系列sklearn分类器进行一些文本处理。在我在互联网上找到的example中,我注意到分类器的输入是一系列字典条目:

({'my': True, 'first': True, 'visit': True, 'was': True, ...}, 'pos')

({'wowjust': True, 'wow': True, 'who': True, 'would': True,..}, 'pos')

这些项目被传递到分类模型中(例如,sklearn LinearSVC)。我在sklearn网站上发现,在文本分类中,文本数据会使用某种技术(例如HashingVectorizer )转换为向量,但我找不到任何有关如何处理上述字典输入的文档。有没有可能解释一下在这种输入情况下需要遵循的步骤?

EN

回答 1

Stack Overflow用户

发布于 2019-06-04 17:24:11

根据documentation,它对它获得的文本进行标记化(您可以自定义如何对文本进行标记化,一个正则表达式告诉您认为要省略的单词和停用词列表),并为每个幸存下来的标记计算散列,这是一个介于0和n_features (向量器的另一个参数)之间的数字。

CountVectorizer不同的是,您总是确信,您确实拥有n_features特性,但您确实存在散列冲突的风险。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56426352

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档