首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何找到两个短语之间的关系?

如何找到两个短语之间的关系?
EN

Stack Overflow用户
提问于 2013-11-26 21:40:54
回答 2查看 1.6K关注 0票数 0

我如何继续寻找两个完全不同但相关的短语之间的关系。例如: 1)“今天的社交媒体网站……”2) "Facebook是非常流行的社交网站……“

虽然这两个短语没有多少共同之处,但它们是相关的(因为Facebook是今天的社交媒体网站)。我如何量化这个关系(如果可能的话)?

EN

回答 2

Stack Overflow用户

发布于 2013-11-26 21:56:17

简单而无效的方法:计算共同的单词数量(和/或单词本身),或者计算两个句子之间的编辑距离,但使用单词而不是字符。在这种情况下,它会发现“社会”这个词出现在两个句子中。您还可以找到一种方法,使用一些同义词词典数据来检测同义词,例如“网站”和“站点”。这可能需要一些工作。常用单词("and","the",...)可以被忽略,以减少巧合匹配的机会。

改进:维护单词之间某种类型的链接图(例如"Facebook“和"networking"),根据它们在一起出现的频率来计算单词之间的链接的权重,并基于此来衡量相关性。维护一个出现频率太高的单词列表,然后忽略它们。显然,这取决于你的算法是否有代表性的“训练数据”。

复杂,有效的方法:阅读机器学习。

票数 4
EN

Stack Overflow用户

发布于 2013-11-27 05:17:32

这是一个非常普遍的问题,您将不得不使用多种方法来获得任何可接受的结果。事实上,您正在谈论的是NLP的最终目标。我建议您将问题分解为几个部分,并逐个解决。

难题的第一部分是理解两个句子是否在谈论相同/相似的实体。这可以通过识别不同句子中的主语、宾语、动词、位置参照、工具参照、与格参照等来实现。然后,可以将这些引用相互比较。我想到的一种方法就是看看wordnet的距离。你必须在一段时间内积累你的词汇量。

第二个难题是解决句子的语气问题。在这里,你必须使用机器学习方法和语言学。

正如我所说,这是一个非常普遍的问题,因此很难一下子解决。如果我是你,我会用以下方式解决问题:

步骤1.首先将我的解决方案限制在一个域中。这将帮助我构建更好的本体/词汇表,更好地训练我的模型。

步骤2:解决实体邻近性,并尝试理解哪些句子在谈论相似的主题或指向相似的对象,等等。这一步更多的是一个语言问题

第三步:在机器学习的帮助下,试着找出有相似语气和音调的句子。

步骤4:移动到下一个域并重复上述步骤。

希望这能有所帮助。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20218662

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档