首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Lucene - KeyWord文件混乱

Lucene - KeyWord文件混乱
EN

Stack Overflow用户
提问于 2015-10-20 16:50:53
回答 1查看 42关注 0票数 0

我开始学习Lucene,所以我正在阅读Lucene的行动。本书有关字段的摘录如下:

代码语言:javascript
复制
Keyword—Isn’t analyzed, but is indexed and stored in the index verbatim.
This type is suitable for fields whose original value should be preserved in
its entirety, such as URLs, file system paths, dates, personal names, Social
Security numbers, telephone numbers, and so on

我从这里理解的是,如果一个文本被关键字字段索引,它不会被分析(不是分裂成标记),而是被索引。然而,我不明白的是and stored in the index verbatim在哪里。

我对存储在索引中感到困惑。我假设如果对文本进行索引,它将被存储在索引数据结构中。

有谁能给我举个例子解释一下吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-10-20 18:58:37

我想你一定是在读“行动中的卢塞尼”的第一版。那本书已经11年了,已经过时了。我不会太担心理解Lucene1.4的约定。

第二版是可用的。它有五年的历史,是基于Lucene3.0的,所以它肯定有点过时了,特别是在Lucene版本4.0的巨大变化之后,但并不是无可救药。读这些当然会更有用。

但是,存储和索引字段之间的区别仍然存在。用Lucene的话说:

  • 索引-该字段是索引的,可以搜索。关键字字段(或最近的StringField)不进行分析,但它们是索引的,因此它们的完整内容可以在不进行标记化的情况下搜索。
  • 存储-该字段与索引表单分开存储,以供以后检索。当您从Lucene获得搜索结果时(例如,从IndexSearcher.doc(int)获得的搜索结果),您返回的文档中只会有存储字段。

因此,您可以有一个可以搜索但不会在结果中返回的字段,也可以有一个在结果中返回但不能搜索的字段。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33242356

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档