首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文档相似度的网络模型

文档相似度的网络模型
EN

Stack Overflow用户
提问于 2016-08-24 23:40:09
回答 2查看 212关注 0票数 0

提前谢谢你的帮助。简单地说,我被要求帮助我的组织进行每5年一次的认证过程。我们需要编译的文档大约有50页长(大约150个问题,总计),因此我们希望尽可能多地重用我们在上一轮中生成的内容。

The problem:问题的顺序和措辞在上一轮中发生了变化,但没有完全改变(例如,“请描述您的组织对多样性的承诺”。“制定了哪些政策来确保组织多样性?”)。因此,我们需要一种方法来找出哪些问题从旧的回合地图到新一轮,或至少大部分(他们不需要是一个完美的匹配,只是类似)。

我的思想是建立一个二分网络,旧的问题和新的问题作为网络的顶点集。边在他们的问题或答案中会用某种程度的词重叠来加权。

,有人知道如何开始解决这个问题吗?

再次,谢谢你,你提供的任何帮助都可能节省时间。

PS -我完全开放的替代解决方案也。如果这有帮助,下面是我最初对建模问题的想法的一张图片。

一个示例解

EN

回答 2

Stack Overflow用户

发布于 2016-08-25 21:54:58

我首先想到的是: 50页的工作,你可能会节省更多的时间,只与一个人。

但是,如果您的团队中有一位优秀的数据科学家,您可以尝试gensim。比较两个不同短语的最新技术是单词嵌入。通过对数百万份文档进行培训,您可以将其看作是将单词转换为高维向量(从200维到1000维)。

例如,如果您的字符串是“人机交互”,您将寻找类似的东西。

代码语言:javascript
复制
[(2, 0.99844527), # The EPS user interface management system
(0, 0.99809301), # Human machine interface for lab abc computer applications
(3, 0.9865886), # System and human system engineering testing of EPS
(1, 0.93748635), # A survey of user opinion of computer system response time
(4, 0.90755945), # Relation of user perceived response time to error measurement
(8, 0.050041795), # Graph minors A survey
(7, -0.098794639), # Graph minors IV Widths of trees and well quasi ordering
(6, -0.1063926), # The intersection graph of paths in trees
(5, -0.12416792)] # The generation of random binary unordered trees   

来自:https://radimrehurek.com/gensim/tut3.html

票数 1
EN

Stack Overflow用户

发布于 2016-08-25 00:45:55

有点概要,但快速解决方案的总体步骤是: 1.将您的单词转换为一种更适合使用http://www.nltk.org/api/nltk.stem.html 2这样的工具进行机器处理的格式。按照这里概述的步骤计算tf-国防军相似性:两个文本文档之间的相似性 3。使用np.argsort()提取最相似的项。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39134571

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档