我正在尝试使用Lucene.NET设置SpellChecker,除了下面类似的情况外,其他都运行得很好:
我在索引中有包含卫星的文本,我使用Snowball对其进行分析。
然后,我创建了一个SpellChecker索引,并从中获取建议。在传入"Satalite“时返回的建议是"satellit”。
我假设这是因为Snowball正在阻止卫星到卫星,因此SpellChecker将其作为建议返回。
有没有办法解决这个问题,这样我就可以一起使用这两个词,而不是为非词干单词创建一个额外的字段,以便拼写检查器可以进行检查?
发布于 2009-12-29 22:45:51
正如Shashikant上面提到的:
你是对的,这是由词干造成的。不幸的是,词干单词不只是为了搜索和外部搜索,它们可能是没有意义的。甚至连我都不知道除了多次存储它之外还有什么其他的技术。可以将该附加字段配置为存储尽可能少的信息,以减轻负担。- Shashikant Kore 12月2日14:08
发布于 2011-02-14 07:35:34
您是否考虑过将snowball过滤器生成的单词作为同义词?这就是我要走的方向。不知道它的效果如何,但看起来似乎是可行的。然后拼写检查器将返回正确的单词,但我仍然可以进行搜索并找到词干变体。
https://stackoverflow.com/questions/1832463
复制相似问题