首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >solr + Heritrix

solr + Heritrix
EN

Stack Overflow用户
提问于 2009-11-03 11:37:16
回答 4查看 4.2K关注 0票数 2

如何将solr与heritrix集成?

我想使用heritrix存档一个站点,然后使用solr在本地索引和搜索此文件。

谢谢

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2009-11-06 01:04:05

使用Solr索引的问题是,它是一个直接的文本索引(如果你只是在抓取一个内部网站,而不关心‘pagerank’,这可能是很好的)。

然而,使用Nutch会给你一个更好的索引,因为它使用了pagerank。

NutchWAX

但是,如果你在使用Heritrix时遇到了问题,并且想要基于pagerank的搜索结果,你可以使用NutchWAX (Nutch Web Archive eXtensions)来索引Heritrix的输出(这就是Heritrix的制造者正在做的事情)。

NutchWAX旨在用于web归档,但也可以用于创建实时web的搜索引擎(事实上,这更容易,因为您不需要在每次重建索引时拖着几年的数据)。

Solr

如果您确实想使用Heritrix+Solr创建一个搜索网站,那么您可能应该将Heritrix中的"ARCWriter“处理器替换为一个将页面内容提交给Solr的自定义处理器。

Solr end只是一个通过HTTP发布的XML文件,非常简单。

Heritrix end稍微复杂一些,但是Developer's Manual将帮助您开始为Heritrix1.x编写处理器(如果您正在使用--到目前为止--不稳定的3.x --或者已停止使用的2.x --您将需要做更多的跑腿工作,因为文档还没有。)

票数 4
EN

Stack Overflow用户

发布于 2009-11-03 23:26:31

Solr1.4 Enterprise Search一书中有一节是关于同时使用Heritrix和Solr的。主要是使用Heritrix进行爬行,然后在单独的过程中解析归档文件并添加Solr。当你忽略了Nutch提供的页面排名分数之类的东西时,它确实简化了事情,因为你的爬虫和你的搜索引擎是独立的工具。

这基本上是Mauricio使用的方法,将数据存储到MySQL中作为中间步骤。我们在亚马逊solrbook AMI上发布了这本书的所有源代码,查找“EC2”。此外,还可以从Packt (http://www.packtpub.com/solr-1-4-enterprise-search-server)的支持站点下载该示例。

票数 3
EN

Stack Overflow用户

发布于 2011-08-24 14:31:47

和我利用你的目的是一样的。

首先下载YouSeer.jar,然后

java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0

它在内部使用ArcReader读取文档,然后将它们上传到Solr。YouSeer代码相当简单,我必须为我的目的做一些修改。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1665084

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档