如何将solr与heritrix集成?
我想使用heritrix存档一个站点,然后使用solr在本地索引和搜索此文件。
谢谢
发布于 2009-11-06 01:04:05
使用Solr索引的问题是,它是一个直接的文本索引(如果你只是在抓取一个内部网站,而不关心‘pagerank’,这可能是很好的)。
然而,使用Nutch会给你一个更好的索引,因为它使用了pagerank。
NutchWAX
但是,如果你在使用Heritrix时遇到了问题,并且想要基于pagerank的搜索结果,你可以使用NutchWAX (Nutch Web Archive eXtensions)来索引Heritrix的输出(这就是Heritrix的制造者正在做的事情)。
NutchWAX旨在用于web归档,但也可以用于创建实时web的搜索引擎(事实上,这更容易,因为您不需要在每次重建索引时拖着几年的数据)。
Solr
如果您确实想使用Heritrix+Solr创建一个搜索网站,那么您可能应该将Heritrix中的"ARCWriter“处理器替换为一个将页面内容提交给Solr的自定义处理器。
Solr end只是一个通过HTTP发布的XML文件,非常简单。
Heritrix end稍微复杂一些,但是Developer's Manual将帮助您开始为Heritrix1.x编写处理器(如果您正在使用--到目前为止--不稳定的3.x --或者已停止使用的2.x --您将需要做更多的跑腿工作,因为文档还没有。)
发布于 2009-11-03 23:26:31
Solr1.4 Enterprise Search一书中有一节是关于同时使用Heritrix和Solr的。主要是使用Heritrix进行爬行,然后在单独的过程中解析归档文件并添加Solr。当你忽略了Nutch提供的页面排名分数之类的东西时,它确实简化了事情,因为你的爬虫和你的搜索引擎是独立的工具。
这基本上是Mauricio使用的方法,将数据存储到MySQL中作为中间步骤。我们在亚马逊solrbook AMI上发布了这本书的所有源代码,查找“EC2”。此外,还可以从Packt (http://www.packtpub.com/solr-1-4-enterprise-search-server)的支持站点下载该示例。
发布于 2011-08-24 14:31:47
和我利用你的目的是一样的。
首先下载YouSeer.jar,然后
java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0
它在内部使用ArcReader读取文档,然后将它们上传到Solr。YouSeer代码相当简单,我必须为我的目的做一些修改。
https://stackoverflow.com/questions/1665084
复制相似问题