我正在寻找一个柠檬化软件,它:
有人知道这样的狐猴吗?
致以敬意,
UPDATE:嗨,丹尼尔,首先,感谢您为LanguageTool提供的出色工作。
我们希望索引德语文本到elasticsearch (ES),并使用ES内置德语词干机(请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html)或下面的插件https://github.com/jprante/elasticsearch-analysis-baseform对文本进行预分析。后者在http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz下使用您的形态学文件,这就是为什么我认为您可能有一些评估数据,以便了解在使用基于形态学文件的柠檬化而不是ES内置词干器时的权衡。你是否有一些数字来精确/覆盖你的德国形态学?或者用德国的词干机进行比较?
诚挚的问候
发布于 2015-05-08 16:12:13
LanguageTool可以做到这一点(免责声明:我是LanguageTool的维护者),它可以在LGPL下使用,并在Java中实现。您可以使用GermanTagger.tag(),结果可以有一个以上的阅读(因为语言往往是模棱两可的),而且每个阅读的AnalyzedToken最终都有一个引理。
https://stackoverflow.com/questions/30126911
复制相似问题