在索引分析器中,我使用WhitespaceTokenizerFactory进行标记。通常,字符串被分成两个标记,事实证明,我的分析器的其余步骤只适合第一个标记,而不是两个都适合。
有没有办法将第二个令牌从剩余的分析器中删除?
谢谢你的见解。
发布于 2017-07-23 00:15:25
我不熟悉任何允许您删除任意标记的过滤器(尽管它应该不是很难编写),但是您可以通过使用PatternReplaceCharFilter来解决它。
如果你有一个公共的分隔符(即一个空格/空白),你可以删除分隔符之后的任何东西,只留下第一个标记。如果您需要更高级的标记化,这将不起作用,但只要您将其表示为正则表达式,就应该可以。
https://stackoverflow.com/questions/45244404
复制相似问题