首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python中的TF-IDF矩阵

Python中的TF-IDF矩阵
EN

Stack Overflow用户
提问于 2017-08-14 03:28:42
回答 1查看 1.2K关注 0票数 0

我为语料库计算TF-IDF的代码如下:

代码语言:javascript
复制
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

train_set = "i have a ball", "he is good", "she played well" 
vectorizer = TfidfVectorizer(min_df=1)

train_array = vectorizer.fit_transform(train_set).toarray()
print(vectorizer.get_feature_names())
print(train_array)

我收到的输出是:

代码语言:javascript
复制
['ball', 'good', 'have', 'he', 'is', 'played', 'she', 'well']

[[0.70710678, 0., 0.70710678, 0., 0., 0., 0., 0.],
 [0., 0.57735027, 0., 0.57735027, 0.57735027, 0., 0., 0.],
 [0., 0., 0., 0., 0., 0.57735027, 0.57735027, 0.57735027]]

问题是我如何计算句子"she is good"TF-IDF?语料库是上面代码中的train_set

EN

回答 1

Stack Overflow用户

发布于 2017-08-14 04:39:36

您只需使用.transform方法对新数据应用TF-IDF向量器:

代码语言:javascript
复制
In [16]: test = ["she is good"]

In [17]: test_array = vectorizer.transform(test)

In [18]: test_array.A
Out[18]: array([[0., 0.57735027, 0., 0., 0.57735027, 0., 0.57735027, 0.]])

In [19]: vectorizer.get_feature_names()
Out[19]: ['ball', 'good', 'have', 'he', 'is', 'played', 'she', 'well']
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45664093

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档