一个相关的Question on Stackoverflow存在,但它是在六年半前被问到的。从那以后,很多事情都发生了变化,尤其是在纳奇。基本上我有两个问题。
发布于 2016-12-31 17:04:50
在现阶段,Nutch只负责爬行网页,意思是访问一个网页,提取内容,找到更多的链接并重复这个过程(我在中间跳过了很多复杂的东西,但希望您能理解)。
爬行过程的最后阶段是将数据存储在后端(ES/Solr是1.x分支上受支持的数据存储)。因此,在这个步骤中,Solr发挥作用,在Nutch完成其工作之后,您需要将数据存储在某个地方,以便能够在其之上执行查询:这是Solr作业。
不久前,Nutch包含了编写倒排索引的能力(正如问题中所解释的那样),但决定(也是在一段时间前)支持使用Solr/ES (或任何其他可以为其编写索引器插件的存储)。现在,索引插件是可插件的,您可以为您想要的任何数据存储编写插件。
简介: Nutch是一个爬虫,Solr是一个搜索引擎,其中Nutch存储爬行的数据。
发布于 2018-01-11 10:34:58
https://stackoverflow.com/questions/41400634
复制相似问题