因此,我知道这是一个很大的主题,但我需要接受一大块文本,并从中提取最有趣的关键字。文本来自电视字幕,因此主题可以从新闻到体育到流行文化参考。可以提供文本来源的显示类型。
我有一个想法,将文本与我知道的有趣的术语字典进行匹配。
Haskell的哪些库可以帮助我做到这一点?
假设我有一个有趣的术语词典,并有一个数据库来存储它们,你有没有推荐一种特殊的方法来匹配文本中的关键字?
有没有什么明显的方法是我没有想到的?
发布于 2011-11-13 06:16:12
我会在词块中添加词干,然后搜索字典中的所有术语,只需两个随机库:
词干http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html
搜索http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html
发布于 2011-11-15 11:31:11
为了扩展bpgergo answer (但我没有任何特定于haskell的信息),将文档输入到关系数据库中并使用SOLR/lucene或sphinx对它们进行索引是非常简单的,这两种方法中的任何一种都应该在其默认/建议的配置中有一个词干分析器。然后你可以搜索哪些文档有你的“感兴趣的词条”列表中的对、三元组等。
你可以看看命名实体识别,统计异常短语检测,自动标签生成,诸如此类的主题。Lingpipe是一个很好的起点,还有这些书:
http://alias-i.com/lingpipe/demos/tutorial/read-me.html
http://www.manning.com/marmanis/excerpt_contents.html
http://www.manning.com/alag/excerpt_contents.html
https://stackoverflow.com/questions/8107896
复制相似问题