首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Nutch诉Solr诉Nutch+Solr

Nutch诉Solr诉Nutch+Solr
EN

Stack Overflow用户
提问于 2016-12-30 18:05:03
回答 2查看 157关注 0票数 1

一个相关的Question on Stackoverflow存在,但它是在六年半前被问到的。从那以后,很多事情都发生了变化,尤其是在纳奇。基本上我有两个问题。

  1. 我们怎么把Nutch和Solr比较?
  2. 在什么情况下,我们需要和为什么更好地集成这两者并用于爬行?这与在独立模式(或与hadoop)中使用它们有何不同?
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-12-31 17:04:50

在现阶段,Nutch只负责爬行网页,意思是访问一个网页,提取内容,找到更多的链接并重复这个过程(我在中间跳过了很多复杂的东西,但希望您能理解)。

爬行过程的最后阶段是将数据存储在后端(ES/Solr是1.x分支上受支持的数据存储)。因此,在这个步骤中,Solr发挥作用,在Nutch完成其工作之后,您需要将数据存储在某个地方,以便能够在其之上执行查询:这是Solr作业。

不久前,Nutch包含了编写倒排索引的能力(正如问题中所解释的那样),但决定(也是在一段时间前)支持使用Solr/ES (或任何其他可以为其编写索引器插件的存储)。现在,索引插件是可插件的,您可以为您想要的任何数据存储编写插件。

简介: Nutch是一个爬虫,Solr是一个搜索引擎,其中Nutch存储爬行的数据。

票数 2
EN

Stack Overflow用户

发布于 2018-01-11 10:34:58

  1. 努奇和索尔是两件不同的事情。Nutch只抓取网页并分析网页的内容,而Solr则负责索引,即当Solr与Nutch集成时存储Nutch爬行的内容。
  2. 您需要集成Solr与Nutch时,您必须检索和存储数据,同时爬行网络。如果您不需要存储或索引任何内容,那么就不需要Solr。当您想要存储数据Nutch爬行,然后对数据执行搜索时,Solr非常有用。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41400634

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档