哪些统计引擎可以产生比OpenNLP工具套件更好的结果?我正在寻找的是一个引擎,从文本中挑选关键字,并提供对这些动词和名词的词干,也许自然语言处理不是这里的方式。引擎还应该与不同的语言一起工作。
发布于 2011-07-09 08:03:38
作为一个完整的自然语言处理工具,LingPipe可能值得一看。
但是,如果您需要做的就是找到动词和名词并对它们进行词干处理,那么您只需1)对文本进行标记化2)运行一个POS标记器3)运行一个词干分析器
我相信斯坦福的工具可以在多种语言中做到这一点,而NLTK将是一种快速的尝试方式。
然而,你要注意仅仅追求动词和名词-你对名词短语和多词名词做了什么?理想情况下,nlp包可以处理此问题,但这在很大程度上取决于您所在的域。不幸的是,很多NLP都是看你的数据有多好。
发布于 2011-07-11 02:07:44
您可能正在寻找Snowball项目,该项目已经为许多不同的语言开发了词干分析器。
发布于 2011-07-10 21:10:00
如果你正在寻找Java代码,我可以推荐Stanford's set of tools。他们的POS tagger支持英语、德语、汉语和阿拉伯语(虽然我只用它写英语),而且还包括一个(只支持英语的)词汇化器。
对于基于Java的解决方案来说,这些工具都是免费的,精确度非常高,速度也不算太差;主要问题有时是API不稳定和内存使用率高。
https://stackoverflow.com/questions/6629812
复制相似问题