我想索引一组包含半结构化数据的文档,通常是像@author Joe Bloggs这样的键值对。然后,这些关键字应该作为文档的可搜索属性可用,可以单独查询。
我一直在研究Lucene,我能够在我感兴趣的文档上建立索引,但我不确定如何最好地继续下一步的关键字提取。
在Lucene或其他索引系统中,有没有一种通用的方法来实现这一点?我希望能够使用典型的单词搜索来搜索文档,因为我已经能够这样做了,所以我希望使用比自定义正则表达式提取更多的东西。
任何帮助都将不胜感激。
尼尔尔
发布于 2011-09-14 20:33:27
我写了一个源代码搜索引擎使用Lucene作为我的学士学位论文的一部分。关键特性之一是,源代码被视为结构化信息,因此应该是可搜索的,即可根据您上面描述的属性进行搜索。
Here你可以找到关于这个项目的更多信息。如果这对你来说太广泛了,我可以总结一些事情:
https://stackoverflow.com/questions/7416246
复制相似问题