文章/答案/技术大牛

发布

社区首页 >问答首页 >fts文档级索引，获取页面级别的结果(以dtSearch为例)

问fts文档级索引，获取页面级别的结果(以dtSearch为例)
EN

Stack Overflow用户

提问于 2012-05-21 17:34:15

回答 2查看 337关注 0票数 2

这不一定是一个特定于dtSearch的问题(例如，它更像是一个fts引擎问题)，而是处理由多个页面组成的文档索引和获取页面级命中结果的方法。

我搜索了一下，什么也没找到，所以我的问题是：

我们有一堆从m本书中扫描出来的书页。我们用OCR-他们，全文索引他们和执行搜索。

我们希望搜索结果是图书级的(例如，搜索结果应该包含一本书)，但也可以在页面级别获得找到的项(为了能够有效地执行点击高亮显示，例如在第1页、第2页和第7页上找到了术语SomeTerm )。

问题来了：

，如果我们一次索引页面的文本，BookA的Page1包含术语Term1，Page2也来自BookA，包含术语Term2，搜索Term1和Term2不会产生任何结果，如果我们在一个大的文本块中索引所有页面的文本，所有文本都属于同一本书，那么我们就无法获得找到的条目所属的页面。

dtSearch桌面具有这样一个用于PDF索引的功能:它能够从单个文档中索引所有页面的文本，但也可以使用%页%%符号来判断发生命中的页面。

我们使用自定义的DataSource来提供索引器，但是我们无法确定要使用的文档的结构，以获得所需的结果。

如果您使用的是其他任何fts引擎(例如Lucene/Sphinx)，您将如何处理上述问题(有重复的风险)：

您需要索引content

Pages页面的documents

，在逻辑上将分组为document

The，需要获得结果，通过突出显示结果必须包含页面number

谢谢你的建议，乔治

PS:抱歉留言太长了

full-text-search

ocr

dtsearch

回答 2

Stack Overflow用户

发布于 2012-05-23 09:57:06

作为一个长期使用dtsearch的用户，我想我会通过生成和索引一个分页的pdf文件来返回基础，每一页都对应于您的书中的ocr文本页。

这样，你就完全独立于搜索引擎技术，让它做它在著名的pdf格式上做得最好的事情。

您的索引不会被无意义的单页文档所淹没，这些文档的数量将在搜索书籍时破坏最佳结果排序。

希望这能帮上忙，对我的英语不好感到遗憾。

票数 1

Stack Overflow用户

发布于 2012-05-22 11:50:46

蛮力的方法是有两种类型的索引文档：

具有页面文本、页码、书籍名称的

页面级文档，以及一个标志，指示这是一个带有书籍文本的页级
文档、书籍的名称和指示这是图书级别文档的标志。

。

首先，您将只搜索图书级别的文档，以找到匹配的书籍。然后，您将只在页面级别的文档上搜索匹配的书籍，以找到匹配的页面级文档。这会让你说"termX和termY出现在书Z中，termX出现在第2、47和293页，termY出现在第1、3、5和293页。“

这种方法的一个缺点是，您最终会对每个页面的内容进行两次索引。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10689856

复制

相似问题

问fts文档级索引，获取页面级别的结果(以dtSearch为例)
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问fts文档级索引，获取页面级别的结果(以dtSearch为例)EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问fts文档级索引，获取页面级别的结果(以dtSearch为例)
EN