文章/答案/技术大牛

发布

问评估段落的内容
EN

Stack Overflow用户

提问于 2010-11-09 07:30:02

回答 2查看 86关注 0票数 4

我们正在建立一个科学论文数据库，并对摘要进行分析。我们的目标是能够说“人们对这个话题的兴趣比去年增长了20%”。我已经尝试过关键词分析，但并不是很喜欢结果。因此，现在我正在努力学习短语和单词之间的接近程度，并意识到我已经超出了自己的能力范围。有没有人能给我一个更好的解决方案，或者至少给我一个好的谷歌术语，让我了解更多？

使用的语言是python，但我认为这并不会真正影响你的答案。提前感谢你的帮助。

string

data-mining

nlp

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-11-09 07:45:33

这是一个很大的主题，但是可以在NLTK工具包中找到对NLP的很好的介绍。这是为了教学和使用Python - ie而设计的。适合于涉猎和实验。此外，在NLTK网站上有一本非常好的开源书籍(也是O‘’Reilly的纸质版本)。

票数 1

Stack Overflow用户

发布于 2010-11-09 07:49:18

这只是一种猜测；不确定这种方法是否有效。如果你正在寻找短语和单词的近似度，也许你可以建立一个马尔可夫链？这样，您就可以了解某些短语/单词相对于其他短语/单词的频率(基于马尔可夫链的顺序)。

因此，您构建了2009年的马尔可夫链和频率分布。然后在2010年底构建另一个，并比较(某些短语和单词的)频率。不过，您可能需要对文本进行规范化。

除此之外，我想到的是自然语言处理技术(围绕这个主题有很多文献！)。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/4129117

复制

相似问题

问评估段落的内容
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问评估段落的内容EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问评估段落的内容
EN