首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >scikit学习tfidf实现与手动实现不同

scikit学习tfidf实现与手动实现不同
EN

Stack Overflow用户
提问于 2019-02-18 20:05:47
回答 1查看 682关注 0票数 4

我尝试使用公式手动计算tfidf值,但得到的结果与使用scikit-learn实现时得到的结果不同。

代码语言:javascript
复制
from sklearn.feature_extraction.text import TfidfVectorizer

tv = TfidfVectorizer()

a = "cat hat bat splat cat bat hat mat cat"
b = "cat mat cat sat"

tv.fit_transform([a, b]).toarray()

# array([[0.53333448, 0.56920781, 0.53333448, 0.18973594, 0.        ,
#             0.26666724],
#            [0.        , 0.75726441, 0.        , 0.37863221, 0.53215436,
#             0.        ]])

tv.get_feature_names()
# ['bat', 'cat', 'hat', 'mat', 'sat', 'splat']

我尝试手动计算文档的tfidf,但结果与TfidfVectorizer.fit_transform不同。

代码语言:javascript
复制
(np.log(2+1/1+1) + 1) * (2/9) = 0.5302876358044202
(np.log(2+1/2+1) + 1) * (3/9) = 0.750920989498456
(np.log(2+1/1+1) + 1) * (2/9) = 0.5302876358044202
(np.log(2+1/2+1) + 1) * (1/9) = 0.25030699649948535
(np.log(2+1/1+1) + 1) * (0/9) = 0.0
(np.log(2+1/1+1) + 1) * (1/9) = 0.2651438179022101

我应该得到的是

代码语言:javascript
复制
[0.53333448, 0.56920781, 0.53333448, 0.18973594, 0, 0.26666724]
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-18 20:40:41

TFIDF有许多变体。sklearn使用的公式是:

代码语言:javascript
复制
(count_of_term_t_in_d) * ((log ((NUMBER_OF_DOCUMENTS + 1) / (Number_of_documents_where_t_appears +1 )) + 1)




2 * (np.log((1 + 2)/(1+1)) + 1) = 2.8109302162163288
3 * (np.log((1 + 2)/(2+1)) + 1) = 3.0
2 * (np.log((1 + 2)/(1+1)) + 1) = 2.8109302162163288
1 * (np.log((1 + 2)/(2+1)) + 1) = 1.0
0 * (np.log((1 + 2)/(2+1)) + 1) = 0.0
1 * (np.log((1 + 2)/(1+1)) + 1) = 1.4054651081081644

计算之后,最终的TFIDF向量被欧几里得范数归一化:

代码语言:javascript
复制
tfidf_vector = [2.8109302162163288, 3.0, 2.8109302162163288, 1.0, 0.0, 1.4054651081081644]

tfidf_vector = tfidf_vector / np.linalg.norm(tfidf_vector)

print(tfidf_vector)

[0.53333448, 0.56920781, 0.53333448, 0.18973594, 0, 0.26666724]
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54746926

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档