首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Haskell中从文本块中提取关键字

如何在Haskell中从文本块中提取关键字
EN

Stack Overflow用户
提问于 2011-11-13 06:02:43
回答 2查看 507关注 0票数 7

因此,我知道这是一个很大的主题,但我需要接受一大块文本,并从中提取最有趣的关键字。文本来自电视字幕,因此主题可以从新闻到体育到流行文化参考。可以提供文本来源的显示类型。

我有一个想法,将文本与我知道的有趣的术语字典进行匹配。

Haskell的哪些库可以帮助我做到这一点?

假设我有一个有趣的术语词典,并有一个数据库来存储它们,你有没有推荐一种特殊的方法来匹配文本中的关键字?

有没有什么明显的方法是我没有想到的?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-13 06:16:12

我会在词块中添加词干,然后搜索字典中的所有术语,只需两个随机库:

词干http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html

搜索http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html

票数 2
EN

Stack Overflow用户

发布于 2011-11-15 11:31:11

为了扩展bpgergo answer (但我没有任何特定于haskell的信息),将文档输入到关系数据库中并使用SOLR/lucene或sphinx对它们进行索引是非常简单的,这两种方法中的任何一种都应该在其默认/建议的配置中有一个词干分析器。然后你可以搜索哪些文档有你的“感兴趣的词条”列表中的对、三元组等。

你可以看看命名实体识别,统计异常短语检测,自动标签生成,诸如此类的主题。Lingpipe是一个很好的起点,还有这些书:

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8107896

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档