首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >nutch vs solr索引

nutch vs solr索引
EN

Stack Overflow用户
提问于 2012-06-01 13:18:23
回答 2查看 4.3K关注 0票数 10

我最近开始了nutch的工作,我正在尝试了解它是如何工作的。据我所知,Nutch基本上是用来抓取网页的,而solr/Lucene是用来索引和搜索的。但当我阅读有关nutch的文档时,它说nutch也做倒排索引。它是否在内部使用Lucene进行索引,或者它是否有其他库用于索引?如果它使用solr/lucene进行索引,那么为什么有必要像nutch教程所说的那样使用nutch配置solr?

是默认情况下的索引。我的意思是我运行这个命令来开始爬行。索引在这里发生了吗?

代码语言:javascript
复制
bin/nutch crawl urls -dir crawl -depth 3 -topN 5

或者索引只在这种情况下发生。(根据教程:如果您已经设置了Solr核心,并希望对其进行索引,则需要在爬行命令中添加-solr参数,例如)

代码语言:javascript
复制
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-06-01 17:38:52

查看一下here可能会很有用。运行第一个命令时:

代码语言:javascript
复制
bin/nutch crawl urls -dir crawl -depth 3 -topN 5

您正在爬行,这意味着nutch将创建自己的内部数据,包括:

  • the crawldb
  • linkdb
  • a set of segments

您可以在以下目录中看到它们,这些目录是在运行爬网命令时创建的:

  • crawl/crawldb
  • crawl/linkdb
  • crawl/segments

您可以将这些数据视为nutch存储爬行数据的某种类型的数据库。这与倒排索引没有任何关系。

爬行过程之后,您可以在Solr实例上索引您的数据。您可以抓取并索引运行单个命令,这是您问题中的第二个命令:

代码语言:javascript
复制
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

否则,您可以在crawl命令之后运行第二个命令,该命令特定于到Solr的索引,但您必须提供crawldb、linkdb和段的路径:

代码语言:javascript
复制
bin/nutch solrindex http://localhost:8983/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/*
票数 5
EN

Stack Overflow用户

发布于 2012-10-31 12:10:31

您可能会对遗留的Nutch版本和相关的在线文档感到困惑。最初,它创建了自己的索引,并拥有自己的网络搜索界面。使用Solr成为一种需要额外配置和摆弄的选项。从1.3开始,索引和服务器部分被剥离,现在假设Nutch将使用Solr。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10844792

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档