文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在Haskell中从文本块中提取关键字

问如何在Haskell中从文本块中提取关键字
EN

Stack Overflow用户

提问于 2011-11-13 06:02:43

回答 2查看 507关注 0票数 7

因此，我知道这是一个很大的主题，但我需要接受一大块文本，并从中提取最有趣的关键字。文本来自电视字幕，因此主题可以从新闻到体育到流行文化参考。可以提供文本来源的显示类型。

我有一个想法，将文本与我知道的有趣的术语字典进行匹配。

Haskell的哪些库可以帮助我做到这一点？

假设我有一个有趣的术语词典，并有一个数据库来存储它们，你有没有推荐一种特殊的方法来匹配文本中的关键字？

有没有什么明显的方法是我没有想到的？

haskell

nlp

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-13 06:16:12

我会在词块中添加词干，然后搜索字典中的所有术语，只需两个随机库：

词干http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html

搜索http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html

票数 2

Stack Overflow用户

发布于 2011-11-15 11:31:11

为了扩展bpgergo answer (但我没有任何特定于haskell的信息)，将文档输入到关系数据库中并使用SOLR/lucene或sphinx对它们进行索引是非常简单的，这两种方法中的任何一种都应该在其默认/建议的配置中有一个词干分析器。然后你可以搜索哪些文档有你的“感兴趣的词条”列表中的对、三元组等。

你可以看看命名实体识别，统计异常短语检测，自动标签生成，诸如此类的主题。Lingpipe是一个很好的起点，还有这些书：

http://alias-i.com/lingpipe/demos/tutorial/read-me.html

http://www.manning.com/marmanis/excerpt_contents.html

http://www.manning.com/alag/excerpt_contents.html

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8107896

复制

相似问题

问如何在Haskell中从文本块中提取关键字
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Haskell中从文本块中提取关键字EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Haskell中从文本块中提取关键字
EN