我最近开始了nutch的工作,我正在尝试了解它是如何工作的。据我所知,Nutch基本上是用来抓取网页的,而solr/Lucene是用来索引和搜索的。但当我阅读有关nutch的文档时,它说nutch也做倒排索引。它是否在内部使用Lucene进行索引,或者它是否有其他库用于索引?如果它使用solr/lucene进行索引,那么为什么有必要像nutch教程所说的那样使用nutch配置solr?
是默认情况下的索引。我的意思是我运行这个命令来开始爬行。索引在这里发生了吗?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5或者索引只在这种情况下发生。(根据教程:如果您已经设置了Solr核心,并希望对其进行索引,则需要在爬行命令中添加-solr参数,例如)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5发布于 2012-06-01 17:38:52
查看一下here可能会很有用。运行第一个命令时:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5您正在爬行,这意味着nutch将创建自己的内部数据,包括:
您可以在以下目录中看到它们,这些目录是在运行爬网命令时创建的:
您可以将这些数据视为nutch存储爬行数据的某种类型的数据库。这与倒排索引没有任何关系。
爬行过程之后,您可以在Solr实例上索引您的数据。您可以抓取并索引运行单个命令,这是您问题中的第二个命令:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5否则,您可以在crawl命令之后运行第二个命令,该命令特定于到Solr的索引,但您必须提供crawldb、linkdb和段的路径:
bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*发布于 2012-10-31 12:10:31
您可能会对遗留的Nutch版本和相关的在线文档感到困惑。最初,它创建了自己的索引,并拥有自己的网络搜索界面。使用Solr成为一种需要额外配置和摆弄的选项。从1.3开始,索引和服务器部分被剥离,现在假设Nutch将使用Solr。
https://stackoverflow.com/questions/10844792
复制相似问题