这不一定是一个特定于dtSearch的问题(例如,它更像是一个fts引擎问题),而是处理由多个页面组成的文档索引和获取页面级命中结果的方法。
我搜索了一下,什么也没找到,所以我的问题是:
我们有一堆从m本书中扫描出来的书页。我们用OCR-他们,全文索引他们和执行搜索。
我们希望搜索结果是图书级的(例如,搜索结果应该包含一本书),但也可以在页面级别获得找到的项(为了能够有效地执行点击高亮显示,例如在第1页、第2页和第7页上找到了术语SomeTerm )。
问题来了:
dtSearch桌面具有这样一个用于PDF索引的功能:它能够从单个文档中索引所有页面的文本,但也可以使用%页%%符号来判断发生命中的页面。
我们使用自定义的DataSource来提供索引器,但是我们无法确定要使用的文档的结构,以获得所需的结果。
如果您使用的是其他任何fts引擎(例如Lucene/Sphinx),您将如何处理上述问题(有重复的风险):
您需要索引content
谢谢你的建议,乔治
PS:抱歉留言太长了
发布于 2012-05-23 09:57:06
作为一个长期使用dtsearch的用户,我想我会通过生成和索引一个分页的pdf文件来返回基础,每一页都对应于您的书中的ocr文本页。
这样,你就完全独立于搜索引擎技术,让它做它在著名的pdf格式上做得最好的事情。
您的索引不会被无意义的单页文档所淹没,这些文档的数量将在搜索书籍时破坏最佳结果排序。
希望这能帮上忙,对我的英语不好感到遗憾。
发布于 2012-05-22 11:50:46
蛮力的方法是有两种类型的索引文档:
具有页面文本、页码、书籍名称的
。
首先,您将只搜索图书级别的文档,以找到匹配的书籍。然后,您将只在页面级别的文档上搜索匹配的书籍,以找到匹配的页面级文档。这会让你说"termX和termY出现在书Z中,termX出现在第2、47和293页,termY出现在第1、3、5和293页。“
这种方法的一个缺点是,您最终会对每个页面的内容进行两次索引。
https://stackoverflow.com/questions/10689856
复制相似问题