我想知道是否有一些标准或最佳做法,在执行增量索引的三层存储的语义搜索的目的。
实际上,为了支持语义搜索,通常使用solr或elasticsearch,其中根据特定的SPARQL查询对资源进行索引。例如,一个人可以重新索引它的全部资源,例如,一天一次,但它并不那么可取。因此,需要增量地执行它。然而,这需要以某种方式跟踪更改,最终的山羊能够继续索引或删除仅更改的内容。
例如,为了只索引已经更改的内容,SPARQL查询应该以某种方式包含一些时间戳过滤器。
如果有人有一些建议,或者在表演方面有经验,他愿意分享这一点,将会得到很好的认可。
到目前为止,我的灵感来自EEA ElasticSearch RDF河插件。我还查看了本体论Changeset本体。
发布于 2016-03-25 10:52:12
实现这一目标的最简单方法是获取事务生命周期中涉及到的内容。然后,您可以看到对数据库的更改,这将为您提供需要索引的图表。
但是,不要拒绝在一个定期的时间表上做一个完整的重新索引,比如每晚。除非你的要求是全文搜索必须总是针对最新的数据和你的数据变化迅速,一个完整的重新索引在一个定期的基础上将工作得很好。
https://stackoverflow.com/questions/36171388
复制相似问题