我意识到3.0.2是Lucene的旧版本,但是如果我有如下Java代码:
int nGramLength = 3;
Set<String> stopWords = new Set<String>();
stopwords.add("the");
stopwords.add("and");
...
SnowballAnalyzer snowballAnalyzer = new SnowballAnalyzer(Version.LUCENE_30, "English", stopWords);
ShingleAnalyzerWrapper shingleAnalyzer = new ShingleAnalyzerWrapper(snowballAnalyzer, nGramLength);在没有停止词的情况下,从特定的文本字符串中生成ngram的频率,我如何禁用构成LowerCaseFilter的SnowBallAnalyzer的一部分?我希望保留生成的ngram的大小写,以便根据ngram中大写字符的存在或不存在来执行各种计数。
我是个露西尼的新手。我要补充的是,升级Lucene版本并不是一种选择。
发布于 2014-11-10 14:25:40
斯诺球分析器是一个使用SnowballFilter的方便类。LowerCaseFilter被放入代码中。
只需复制SnowballAnalyzer源并删除第103行streams.result = new LowerCaseFilter(streams.result);
https://stackoverflow.com/questions/26845100
复制相似问题