首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从tf-idf计算余弦相似度

从tf-idf计算余弦相似度
EN

Stack Overflow用户
提问于 2016-09-26 19:30:37
回答 1查看 406关注 0票数 2

在数据帧df中,我具有以下列tf-idf

代码语言:javascript
复制
       tf-idf
0      {u'selection': 3.83579393163, u'carltons': 7.0...
1      {u'precise': 6.43261849762, u'thomas': 3.31980...
2      {u'just': 2.70047792082, u'issued': 4.42829758...
3      {u'englishreading': 9.88788310056, u'all': 1.6...
4      {u'they': 1.89922701484, u'gangstergenka': 10....
5      {u'since': 1.45530416153, u'less': 3.956522477...
6      {u'exclusive': 10.4488880129, u'producer': 2.6...
7      {u'taxi': 6.04485296662, u'all': 1.64302370465...
8      {u'houston': 3.93463976627, u'frankie': 6.0306...
9      {u'phenomenon': 5.74474837417, u'deborash': 10...
10     {u'zwigoff': 19.7757662011, u'september': 1.90...
11     {u'gospels': 7.9419729515, u'theft': 6.0028887... `

我正在努力寻找两个样本之间的cosine similarity -例如,在df['tf-idf'][0]df['tf-idf'][1]之间。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-09-26 21:48:26

你可以使用scikit-learn:

代码语言:javascript
复制
from sklearn.feature_extraction import DictVectorizer
from sklearn.metrics.pairwise import cosine_similarity

a = DictVectorizer().fit_transform(df['tf-idf'])
cosine_similarity(a[0], a[1])
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39701677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档