我曾使用SnowBallAnalyzer将自定义停用词过滤与基本词干组合在一起,但它已被弃用。例如,在索引配置中,我可以很容易地指定:
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_32,
new SnowballAnalyzer(Version.LUCENE_32, "name", stopSet));其中stopSet是我的自定义停用词列表。
我现在如何创建一个分析器,使我能够过滤停用的单词并进行基本的英语词干分析?
谢谢。
发布于 2013-08-30 23:54:13
使用EnglishAnalyzer
new EnglishAnalyzer(Version.LUCENE_32, stopSet)如果您没有将有效的词干分析器名称传递到SnowballAnalyzer构造函数中,我对您列出的代码如何做一些特别有用的事情感到有点困惑。似乎它应该在这里抛出一个异常:
Class<?> stemClass = Class.forName("org.tartarus.snowball.ext." + name + "Stemmer");因为没有名为"org.tartarus.snowball.ext.nameStemmer“的词干分析器。
https://stackoverflow.com/questions/18523273
复制相似问题