首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >评估段落的内容

评估段落的内容
EN

Stack Overflow用户
提问于 2010-11-09 07:30:02
回答 2查看 86关注 0票数 4

我们正在建立一个科学论文数据库,并对摘要进行分析。我们的目标是能够说“人们对这个话题的兴趣比去年增长了20%”。我已经尝试过关键词分析,但并不是很喜欢结果。因此,现在我正在努力学习短语和单词之间的接近程度,并意识到我已经超出了自己的能力范围。有没有人能给我一个更好的解决方案,或者至少给我一个好的谷歌术语,让我了解更多?

使用的语言是python,但我认为这并不会真正影响你的答案。提前感谢你的帮助。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-11-09 07:45:33

这是一个很大的主题,但是可以在NLTK工具包中找到对NLP的很好的介绍。这是为了教学和使用Python - ie而设计的。适合于涉猎和实验。此外,在NLTK网站上有一本非常好的开源书籍(也是O‘’Reilly的纸质版本)。

票数 1
EN

Stack Overflow用户

发布于 2010-11-09 07:49:18

这只是一种猜测;不确定这种方法是否有效。如果你正在寻找短语和单词的近似度,也许你可以建立一个马尔可夫链?这样,您就可以了解某些短语/单词相对于其他短语/单词的频率(基于马尔可夫链的顺序)。

因此,您构建了2009年的马尔可夫链和频率分布。然后在2010年底构建另一个,并比较(某些短语和单词的)频率。不过,您可能需要对文本进行规范化。

除此之外,我想到的是自然语言处理技术(围绕这个主题有很多文献!)。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/4129117

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档