我们正在建立一个科学论文数据库,并对摘要进行分析。我们的目标是能够说“人们对这个话题的兴趣比去年增长了20%”。我已经尝试过关键词分析,但并不是很喜欢结果。因此,现在我正在努力学习短语和单词之间的接近程度,并意识到我已经超出了自己的能力范围。有没有人能给我一个更好的解决方案,或者至少给我一个好的谷歌术语,让我了解更多?
使用的语言是python,但我认为这并不会真正影响你的答案。提前感谢你的帮助。
发布于 2010-11-09 07:45:33
这是一个很大的主题,但是可以在NLTK工具包中找到对NLP的很好的介绍。这是为了教学和使用Python - ie而设计的。适合于涉猎和实验。此外,在NLTK网站上有一本非常好的开源书籍(也是O‘’Reilly的纸质版本)。
发布于 2010-11-09 07:49:18
这只是一种猜测;不确定这种方法是否有效。如果你正在寻找短语和单词的近似度,也许你可以建立一个马尔可夫链?这样,您就可以了解某些短语/单词相对于其他短语/单词的频率(基于马尔可夫链的顺序)。
因此,您构建了2009年的马尔可夫链和频率分布。然后在2010年底构建另一个,并比较(某些短语和单词的)频率。不过,您可能需要对文本进行规范化。
除此之外,我想到的是自然语言处理技术(围绕这个主题有很多文献!)。
https://stackoverflow.com/questions/4129117
复制相似问题