我如何继续寻找两个完全不同但相关的短语之间的关系。例如: 1)“今天的社交媒体网站……”2) "Facebook是非常流行的社交网站……“
虽然这两个短语没有多少共同之处,但它们是相关的(因为Facebook是今天的社交媒体网站)。我如何量化这个关系(如果可能的话)?
发布于 2013-11-26 21:56:17
简单而无效的方法:计算共同的单词数量(和/或单词本身),或者计算两个句子之间的编辑距离,但使用单词而不是字符。在这种情况下,它会发现“社会”这个词出现在两个句子中。您还可以找到一种方法,使用一些同义词词典数据来检测同义词,例如“网站”和“站点”。这可能需要一些工作。常用单词("and","the",...)可以被忽略,以减少巧合匹配的机会。
改进:维护单词之间某种类型的链接图(例如"Facebook“和"networking"),根据它们在一起出现的频率来计算单词之间的链接的权重,并基于此来衡量相关性。维护一个出现频率太高的单词列表,然后忽略它们。显然,这取决于你的算法是否有代表性的“训练数据”。
复杂,有效的方法:阅读机器学习。
发布于 2013-11-27 05:17:32
这是一个非常普遍的问题,您将不得不使用多种方法来获得任何可接受的结果。事实上,您正在谈论的是NLP的最终目标。我建议您将问题分解为几个部分,并逐个解决。
难题的第一部分是理解两个句子是否在谈论相同/相似的实体。这可以通过识别不同句子中的主语、宾语、动词、位置参照、工具参照、与格参照等来实现。然后,可以将这些引用相互比较。我想到的一种方法就是看看wordnet的距离。你必须在一段时间内积累你的词汇量。
第二个难题是解决句子的语气问题。在这里,你必须使用机器学习方法和语言学。
正如我所说,这是一个非常普遍的问题,因此很难一下子解决。如果我是你,我会用以下方式解决问题:
步骤1.首先将我的解决方案限制在一个域中。这将帮助我构建更好的本体/词汇表,更好地训练我的模型。
步骤2:解决实体邻近性,并尝试理解哪些句子在谈论相似的主题或指向相似的对象,等等。这一步更多的是一个语言问题
第三步:在机器学习的帮助下,试着找出有相似语气和音调的句子。
步骤4:移动到下一个域并重复上述步骤。
希望这能有所帮助。
https://stackoverflow.com/questions/20218662
复制相似问题