Terrier IR系统默认使用Porter Stemmer。我们如何在Terrier中使用统计词干分析器输出?我已经使用统计词干分析器生成了词干列表,并希望将其嵌入到TERRIER IR中。
发布于 2015-11-19 01:13:56
您必须创建一个类,将StemmerTermPipeline扩展到org.terrier.terms包中。
例如:
公共类StatisticalStemmer扩展了StemmerTermPipeline {
public StatisticalStemmer(TermPipeline next) {
super(next);
}
@Override
public String stem(String word) {
// your method implementation
}}
然后,您需要重新编译核心组件并替换lib目录中的terrier-4.0-core.jar文件。
最后,您需要在属性文件中更新术语Pipeline:
termpipelines=Stopwords,StatisticalStemmer
通过这种方式,Terrier将使用您的词干分析器来代替PorterStemmer。
https://stackoverflow.com/questions/32578889
复制相似问题