我正在尝试生成一些类似于lucene中的QueryParser所做的事情,但没有解析器,例如,通过StandardAnalyzer运行一个字符串,将其标记化,并在BooleanQuery中使用TermQuery:s来生成查询。我的问题是我只能从StandardAnalyzer获得Token:s,而不是Term:s。我可以通过使用Token.term()从Token中提取字符串来将Token转换为term,但这是2.4.x版的,而且它似乎是倒退的,因为我需要再次添加该字段。使用StandardAnalyzer生成TermQuery的正确方法是什么?
我使用的是pylucene,但我猜Java的答案也是一样的。下面是我想出来的代码:
from lucene import *
def term_match(self, phrase):
query = BooleanQuery()
sa = StandardAnalyzer()
for token in sa.tokenStream("contents", StringReader(phrase)):
term_query = TermQuery(Term("contents", token.term())
query.add(term_query), BooleanClause.Occur.SHOULD)发布于 2009-09-07 18:28:23
获取标记文本的既定方法是使用token.termText() --API已经存在很久了。
是的,您需要为Analyzer和Term指定一个字段名称;我认为这是正常的。8-)
发布于 2010-11-24 23:26:27
我也遇到过同样的问题,使用Lucene 2.9API和Java,我的代码片段如下所示:
final TokenStream tokenStream = new StandardAnalyzer(Version.LUCENE_29)
.tokenStream( fieldName , new StringReader( value ) );
final List< String > result = new ArrayList< String >();
try {
while ( tokenStream.incrementToken() ) {
final TermAttribute term = ( TermAttribute ) tokenStream.getAttribute( TermAttribute.class );
result.add( term.term() );
}https://stackoverflow.com/questions/1390088
复制相似问题