首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >fts文档级索引,获取页面级别的结果(以dtSearch为例)

fts文档级索引,获取页面级别的结果(以dtSearch为例)
EN

Stack Overflow用户
提问于 2012-05-21 17:34:15
回答 2查看 337关注 0票数 2

这不一定是一个特定于dtSearch的问题(例如,它更像是一个fts引擎问题),而是处理由多个页面组成的文档索引和获取页面级命中结果的方法。

我搜索了一下,什么也没找到,所以我的问题是:

我们有一堆从m本书中扫描出来的书页。我们用OCR-他们,全文索引他们和执行搜索。

我们希望搜索结果是图书级的(例如,搜索结果应该包含一本书),但也可以在页面级别获得找到的项(为了能够有效地执行点击高亮显示,例如在第1页、第2页和第7页上找到了术语SomeTerm )。

问题来了:

  • ,如果我们一次索引页面的文本,BookA的Page1包含术语Term1,Page2也来自BookA,包含术语Term2,搜索Term1和Term2不会产生任何结果,如果我们在一个大的文本块中索引所有页面的文本,所有文本都属于同一本书,那么我们就无法获得找到的条目所属的页面。

dtSearch桌面具有这样一个用于PDF索引的功能:它能够从单个文档中索引所有页面的文本,但也可以使用%页%%符号来判断发生命中的页面。

我们使用自定义的DataSource来提供索引器,但是我们无法确定要使用的文档的结构,以获得所需的结果。

如果您使用的是其他任何fts引擎(例如Lucene/Sphinx),您将如何处理上述问题(有重复的风险):

您需要索引content

  • Pages页面的documents

  • You

  • ,在逻辑上将分组为document

  • The,需要获得结果,通过突出显示结果必须包含页面number

谢谢你的建议,乔治

PS:抱歉留言太长了

EN

回答 2

Stack Overflow用户

发布于 2012-05-23 09:57:06

作为一个长期使用dtsearch的用户,我想我会通过生成和索引一个分页的pdf文件来返回基础,每一页都对应于您的书中的ocr文本页。

这样,你就完全独立于搜索引擎技术,让它做它在著名的pdf格式上做得最好的事情。

您的索引不会被无意义的单页文档所淹没,这些文档的数量将在搜索书籍时破坏最佳结果排序。

希望这能帮上忙,对我的英语不好感到遗憾。

票数 1
EN

Stack Overflow用户

发布于 2012-05-22 11:50:46

蛮力的方法是有两种类型的索引文档:

具有页面文本、页码、书籍名称的

  • 页面级文档,以及一个标志,指示这是一个带有书籍文本的页级
  • 文档、书籍的名称和指示这是图书级别文档的标志。

首先,您将只搜索图书级别的文档,以找到匹配的书籍。然后,您将只在页面级别的文档上搜索匹配的书籍,以找到匹配的页面级文档。这会让你说"termX和termY出现在书Z中,termX出现在第2、47和293页,termY出现在第1、3、5和293页。“

这种方法的一个缺点是,您最终会对每个页面的内容进行两次索引。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10689856

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档