文章/答案/技术大牛

发布

社区首页 >问答首页 >solr + Heritrix

问solr + Heritrix
EN

Stack Overflow用户

提问于 2009-11-03 11:37:16

回答 4查看 4.2K关注 0票数 2

如何将solr与heritrix集成？

我想使用heritrix存档一个站点，然后使用solr在本地索引和搜索此文件。

谢谢

search-engine

solr

web-crawler

indexing

回答 4

Stack Overflow用户

回答已采纳

发布于 2009-11-06 01:04:05

使用Solr索引的问题是，它是一个直接的文本索引(如果你只是在抓取一个内部网站，而不关心‘pagerank’，这可能是很好的)。

然而，使用Nutch会给你一个更好的索引，因为它使用了pagerank。

NutchWAX

但是，如果你在使用Heritrix时遇到了问题，并且想要基于pagerank的搜索结果，你可以使用NutchWAX (Nutch Web Archive eXtensions)来索引Heritrix的输出(这就是Heritrix的制造者正在做的事情)。

NutchWAX旨在用于web归档，但也可以用于创建实时web的搜索引擎(事实上，这更容易，因为您不需要在每次重建索引时拖着几年的数据)。

Solr

如果您确实想使用Heritrix+Solr创建一个搜索网站，那么您可能应该将Heritrix中的"ARCWriter“处理器替换为一个将页面内容提交给Solr的自定义处理器。

Solr end只是一个通过HTTP发布的XML文件，非常简单。

Heritrix end稍微复杂一些，但是Developer's Manual将帮助您开始为Heritrix1.x编写处理器(如果您正在使用--到目前为止--不稳定的3.x --或者已停止使用的2.x --您将需要做更多的跑腿工作，因为文档还没有。)

票数 4

Stack Overflow用户

发布于 2009-11-03 23:26:31

Solr1.4 Enterprise Search一书中有一节是关于同时使用Heritrix和Solr的。主要是使用Heritrix进行爬行，然后在单独的过程中解析归档文件并添加Solr。当你忽略了Nutch提供的页面排名分数之类的东西时，它确实简化了事情，因为你的爬虫和你的搜索引擎是独立的工具。

这基本上是Mauricio使用的方法，将数据存储到MySQL中作为中间步骤。我们在亚马逊solrbook AMI上发布了这本书的所有源代码，查找“EC2”。此外，还可以从Packt (http://www.packtpub.com/solr-1-4-enterprise-search-server)的支持站点下载该示例。

票数 3

Stack Overflow用户

发布于 2011-08-24 14:31:47

和我利用你的目的是一样的。

首先下载YouSeer.jar，然后

java -jar YouSeer.jar http://localhost:8983/solr/update /cygdrive/d/arcs /cached 3 0

它在内部使用ArcReader读取文档，然后将它们上传到Solr。YouSeer代码相当简单，我必须为我的目的做一些修改。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/1665084

复制

相似问题

问solr + Heritrix
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问solr + HeritrixEN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问solr + Heritrix
EN