首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >scikit学习CountVectorizer。vocabulary_

scikit学习CountVectorizer。vocabulary_
EN

Stack Overflow用户
提问于 2019-09-14 03:22:15
回答 2查看 1.8K关注 0票数 0

我有下面的例子:

代码语言:javascript
复制
sentences = ['Rashmi likes ice cream', 'Rashmi hates chocolate.']

vectorizer = CountVectorizer(min_df=0, lowercase=False)
vectorizer.fit(sentences)
vectorizer.vocabulary_

输出如下:

代码语言:javascript
复制
{'Rashmi': 0, 'likes': 5, 'ice': 4, 'cream': 2, 'hates': 3, 'chocolate': 1}

那么这些数字代表什么呢?我不明白。

EN

回答 2

Stack Overflow用户

发布于 2019-09-14 03:28:22

它是从word到它的ID的映射

在向量上调用fit时,每个单词都将映射到字典中的值。

票数 1
EN

Stack Overflow用户

发布于 2019-09-17 02:21:24

来自docs

vocabulary_:字典术语到特征索引的映射。

说明

vocabulary_是一个字典,其中关键字是术语,值是特征矩阵中的索引。

CountVectorizer将文本文档的集合转换为标记计数矩阵。它生成一个稀疏矩阵,其中包含词汇表中每个单词的计数。矩阵形状是NxM (N是文档数(行),M是词汇表(列)的大小)。这些数字仅仅是这个矩阵中词汇的每个单词的跨列索引。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57929304

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档