文章/答案/技术大牛

发布

社区首页 >问答首页 >python中的相似度匹配计算

问python中的相似度匹配计算
EN

Stack Overflow用户

提问于 2012-05-20 06:15:38

回答 3查看 169关注 0票数 0

我正在做一个用python进行问答的项目。我已经有了问答文档的向量和tfidf的值。但是我不知道如何在python中计算相似度匹配。

python

回答 3

Stack Overflow用户

发布于 2012-05-20 06:19:05

您可以使用两个向量之间的Euclidean distance，或其他距离度量(例如，Hamming distance)，或向量的cross-correlation。

票数 1

Stack Overflow用户

发布于 2012-05-20 06:29:46

余弦相似度

length_question = .0
length_answer = .0

for word_tfidf in question:
    length_question += word_tfidf**2

for word_tfdif in answer:
     length_answer += word_tfidf**2

similarity = .0
for word in question:
    question_word_tfidf = question[word]
    answer_word_tfidf = answer.get(word, 0)
    similarity += question_word_tfidf * answer_word_tfidf
similarity /= math.sqrt(length_question * length_answer)

票数 1

Stack Overflow用户

发布于 2012-05-20 07:04:37

你可以使用Levenshtein距离，在这里：http://en.wikibooks.org/wiki/Algorithm_Implementation/Strings/Levenshtein_distance#Python查看代码，在这里：http://en.wikipedia.org/wiki/Levenshtein_distance查看算法的讨论。

以下是从上面的链接复制的代码片段：

def levenshtein(s1, s2):
    if len(s1) < len(s2):
        return levenshtein(s2, s1)
    if not s1:
        return len(s2)

    previous_row = xrange(len(s2) + 1)
    for i, c1 in enumerate(s1):
        current_row = [i + 1]
        for j, c2 in enumerate(s2):
            insertions = previous_row[j + 1] + 1 # j+1 instead of j since previous_row and current_row are one character longer
            deletions = current_row[j] + 1       # than s2
            substitutions = previous_row[j] + (c1 != c2)
            current_row.append(min(insertions, deletions, substitutions))
        previous_row = current_row

    return previous_row[-1]

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10669221

复制

相似问题

问python中的相似度匹配计算
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python中的相似度匹配计算EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问python中的相似度匹配计算
EN