文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在nutch中合并两个爬虫数据库

问如何在nutch中合并两个爬虫数据库
EN

Stack Overflow用户

提问于 2013-04-03 01:23:43

回答 2查看 326关注 0票数 0

假设我有两台不同的机器，它们使用nutch爬行两个不同的域。

现在我想把它们的crawldb合并成一个。我该怎么做呢？

我在某处读到过--命令：

bin/nutch mergedb <crawldb1> <crawldb2>

做我想做的事？

此外，假设其中一个爬虫数据库是由本地托管网站的站点生成的，即维基百科爬行自身并将其存储为crawldb1

还有一些其他的网站，比如说stackoverflow也做了同样的事情。

在这种情况下，我可以将这两个crawldb合并为一个，但它会以某种方式修改它们，以反映它们的实际url，而不是相对的url(我的意思是url，wrt，数据库的新位置)。

如果我的描述不是很清楚，很抱歉。提前感谢

search-engine

web-crawler

nutch

回答 2

Stack Overflow用户

发布于 2013-04-04 00:57:22

要知道它是否有效，只有一种方法，那就是尝试一下。首先阅读手册，您会遗漏合并的DB参数。请参阅http://wiki.apache.org/nutch/bin/nutch%20mergedb

票数 0

Stack Overflow用户

发布于 2014-03-18 22:05:07

您可以合并这两个数据库的所有网址在爬虫数据库中总是以完整的存储。Nutch从不存储与任何内容相关的URL。

您编写的命令将把crawldb2合并到crawldb1中

如果要合并crawldb localcrawldb和stackoverflowcrawldb

你写

bin/nutch crawldb合并mergedcrawldb本地爬网数据库堆栈溢出crawldb

并且两个crawldbs将被合并到mergedcrawldb中。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15770337

复制

相似问题

问如何在nutch中合并两个爬虫数据库
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在nutch中合并两个爬虫数据库EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在nutch中合并两个爬虫数据库
EN