假设我有两台不同的机器,它们使用nutch爬行两个不同的域。
现在我想把它们的crawldb合并成一个。我该怎么做呢?
我在某处读到过--命令:
bin/nutch mergedb <crawldb1> <crawldb2>做我想做的事?
此外,假设其中一个爬虫数据库是由本地托管网站的站点生成的,即维基百科爬行自身并将其存储为crawldb1
还有一些其他的网站,比如说stackoverflow也做了同样的事情。
在这种情况下,我可以将这两个crawldb合并为一个,但它会以某种方式修改它们,以反映它们的实际url,而不是相对的url(我的意思是url,wrt,数据库的新位置)。
如果我的描述不是很清楚,很抱歉。提前感谢
发布于 2013-04-04 00:57:22
要知道它是否有效,只有一种方法,那就是尝试一下。首先阅读手册,您会遗漏合并的DB参数。请参阅http://wiki.apache.org/nutch/bin/nutch%20mergedb
发布于 2014-03-18 22:05:07
您可以合并这两个数据库的所有网址在爬虫数据库中总是以完整的存储。Nutch从不存储与任何内容相关的URL。
您编写的命令将把crawldb2合并到crawldb1中
如果要合并crawldb localcrawldb和stackoverflowcrawldb
你写
bin/nutch crawldb合并mergedcrawldb本地爬网数据库堆栈溢出crawldb
并且两个crawldbs将被合并到mergedcrawldb中。
https://stackoverflow.com/questions/15770337
复制相似问题