文章/答案/技术大牛

发布

社区首页 >问答首页 >Lucene -使用长字符串查询

问Lucene -使用长字符串查询
EN

Stack Overflow用户

提问于 2010-03-23 21:20:57

回答 2查看 517关注 0票数 0

我有一个索引，带有“从属关系”字段，一些示例值是：

“斯坦福大学医学院，加利福尼亚州帕洛阿尔托”，
“神经生物学研究所，医学院，斯坦福大学，Palo Alto，CA"，
”医学院，哈佛大学，波士顿MA"，
"Brigham & Women's，哈佛大学医学院，波士顿，MA“
”哈佛大学，剑桥MA“H 210F 211

等等..。(底线是隶属关系是以多种方式编写的，没有明显的一致性)

我使用“斯坦福大学医学院，Palo，CA”(与QueryParser一起)查询附属关系字段上的索引，我得到了很多虚假+ves，大概是因为医学院的存在等等。(注意:我不能使用短语查询，因为在建立附属关系的方式上存在差异)

我尝试了以下几点：

results!)

Tried

通过用空格分割搜索短语来使用SpanNearQuery (这里我不使用逗号分割搜索短语(使用^)，并使用比初始短语高得多的助推词，比如"Palo“。在这里，我仍然得到了许多假+ves。

关于如何处理这个问题，有什么建议吗？如果SpanNearQuery要走的路，对我为什么得到0的结果有什么想法吗？

lucene.net

lucene

回答 2

Stack Overflow用户

回答已采纳

发布于 2010-03-25 05:20:49

我就是这样做的：

在单词列表中添加了“大学”、“学校”、“医学”、“研究所”等常用术语。
对每个词都使用布尔查询，setMinimumNumberShouldMatch()为查询字符串长度的75%。

最后，循环遍历hits收集器，并使用字符串比较算法(如Jaro、Levenstein等)作为二级过滤器。(这很慢，但确保了精确性)。

希望这能有所帮助。

票数 0

Stack Overflow用户

发布于 2010-03-24 06:39:11

你是用或搜索代替和？

可以将默认运算符设置为和使用QueryParser.setDefaultOperator()。将默认运算符设置为并应消除所有误报。但是，如果您的索引值是"Stanford University School of Medicine, Palo Alto, CA ",，并且正在搜索"Stanford University School of Medicine, Palo Alto, CA USA", (注意查询中的额外术语USA )，您可能会冒着虚假否定的风险。

如果查询的术语不会超过索引值，这将解决您的问题。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2503716

复制

相似问题

问Lucene -使用长字符串查询
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Lucene -使用长字符串查询EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Lucene -使用长字符串查询
EN