我有下面的例子:
sentences = ['Rashmi likes ice cream', 'Rashmi hates chocolate.']
vectorizer = CountVectorizer(min_df=0, lowercase=False)
vectorizer.fit(sentences)
vectorizer.vocabulary_输出如下:
{'Rashmi': 0, 'likes': 5, 'ice': 4, 'cream': 2, 'hates': 3, 'chocolate': 1}那么这些数字代表什么呢?我不明白。
发布于 2019-09-14 03:28:22
它是从word到它的ID的映射
在向量上调用fit时,每个单词都将映射到字典中的值。
发布于 2019-09-17 02:21:24
来自docs
vocabulary_:字典术语到特征索引的映射。
说明
vocabulary_是一个字典,其中关键字是术语,值是特征矩阵中的索引。
CountVectorizer将文本文档的集合转换为标记计数矩阵。它生成一个稀疏矩阵,其中包含词汇表中每个单词的计数。矩阵形状是NxM (N是文档数(行),M是词汇表(列)的大小)。这些数字仅仅是这个矩阵中词汇的每个单词的跨列索引。
https://stackoverflow.com/questions/57929304
复制相似问题