文章/答案/技术大牛

发布

问文档相似度的网络模型
EN

Stack Overflow用户

提问于 2016-08-24 23:40:09

回答 2查看 212关注 0票数 0

提前谢谢你的帮助。简单地说，我被要求帮助我的组织进行每5年一次的认证过程。我们需要编译的文档大约有50页长(大约150个问题，总计)，因此我们希望尽可能多地重用我们在上一轮中生成的内容。

The problem：问题的顺序和措辞在上一轮中发生了变化，但没有完全改变(例如，“请描述您的组织对多样性的承诺”。“制定了哪些政策来确保组织多样性？”)。因此，我们需要一种方法来找出哪些问题从旧的回合地图到新一轮，或至少大部分(他们不需要是一个完美的匹配，只是类似)。

我的思想是建立一个二分网络，旧的问题和新的问题作为网络的顶点集。边在他们的问题或答案中会用某种程度的词重叠来加权。

，有人知道如何开始解决这个问题吗？

再次，谢谢你，你提供的任何帮助都可能节省时间。

PS -我完全开放的替代解决方案也。如果这有帮助，下面是我最初对建模问题的想法的一张图片。

一个示例解

graph-theory

bipartite

python

nlp

回答 2

Stack Overflow用户

发布于 2016-08-25 21:54:58

我首先想到的是: 50页的工作，你可能会节省更多的时间，只与一个人。

但是，如果您的团队中有一位优秀的数据科学家，您可以尝试gensim。比较两个不同短语的最新技术是单词嵌入。通过对数百万份文档进行培训，您可以将其看作是将单词转换为高维向量(从200维到1000维)。

例如，如果您的字符串是“人机交互”，您将寻找类似的东西。

[(2, 0.99844527), # The EPS user interface management system
(0, 0.99809301), # Human machine interface for lab abc computer applications
(3, 0.9865886), # System and human system engineering testing of EPS
(1, 0.93748635), # A survey of user opinion of computer system response time
(4, 0.90755945), # Relation of user perceived response time to error measurement
(8, 0.050041795), # Graph minors A survey
(7, -0.098794639), # Graph minors IV Widths of trees and well quasi ordering
(6, -0.1063926), # The intersection graph of paths in trees
(5, -0.12416792)] # The generation of random binary unordered trees

来自：https://radimrehurek.com/gensim/tut3.html

票数 1

Stack Overflow用户

发布于 2016-08-25 00:45:55

有点概要，但快速解决方案的总体步骤是: 1.将您的单词转换为一种更适合使用http://www.nltk.org/api/nltk.stem.html 2这样的工具进行机器处理的格式。按照这里概述的步骤计算tf-国防军相似性：两个文本文档之间的相似性 3。使用np.argsort()提取最相似的项。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39134571

复制

相似问题

问文档相似度的网络模型
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档相似度的网络模型EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文档相似度的网络模型
EN