文章/答案/技术大牛

发布

社区首页 >问答首页 >Nutch诉Solr诉Nutch+Solr

问Nutch诉Solr诉Nutch+Solr
EN

Stack Overflow用户

提问于 2016-12-30 18:05:03

回答 2查看 157关注 0票数 1

一个相关的Question on Stackoverflow存在，但它是在六年半前被问到的。从那以后，很多事情都发生了变化，尤其是在纳奇。基本上我有两个问题。

我们怎么把Nutch和Solr比较？
在什么情况下，我们需要和为什么更好地集成这两者并用于爬行？这与在独立模式(或与hadoop)中使用它们有何不同？

solr

web-scraping

web-crawler

nutch

hadoop

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-12-31 17:04:50

在现阶段，Nutch只负责爬行网页，意思是访问一个网页，提取内容，找到更多的链接并重复这个过程(我在中间跳过了很多复杂的东西，但希望您能理解)。

爬行过程的最后阶段是将数据存储在后端(ES/Solr是1.x分支上受支持的数据存储)。因此，在这个步骤中，Solr发挥作用，在Nutch完成其工作之后，您需要将数据存储在某个地方，以便能够在其之上执行查询:这是Solr作业。

不久前，Nutch包含了编写倒排索引的能力(正如问题中所解释的那样)，但决定(也是在一段时间前)支持使用Solr/ES (或任何其他可以为其编写索引器插件的存储)。现在，索引插件是可插件的，您可以为您想要的任何数据存储编写插件。

简介: Nutch是一个爬虫，Solr是一个搜索引擎，其中Nutch存储爬行的数据。

票数 2

Stack Overflow用户

发布于 2018-01-11 10:34:58

努奇和索尔是两件不同的事情。Nutch只抓取网页并分析网页的内容，而Solr则负责索引，即当Solr与Nutch集成时存储Nutch爬行的内容。
您需要集成Solr与Nutch时，您必须检索和存储数据，同时爬行网络。如果您不需要存储或索引任何内容，那么就不需要Solr。当您想要存储数据Nutch爬行，然后对数据执行搜索时，Solr非常有用。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/41400634

复制

相似问题

问Nutch诉Solr诉Nutch+Solr
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch诉Solr诉Nutch+SolrEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Nutch诉Solr诉Nutch+Solr
EN