我一直想知道深度和顶端对nutch爬行的影响是什么?例如,假设深度为100,topn为10000可确保完全爬行,将深度更改为1000是否会影响爬行所需的时间?所以,要抓取一个不熟悉的网站,可以给出一个任意大的深度和topn吗?
谢谢你的帮助
阿南斯。
发布于 2012-07-04 00:03:22
depth是从根开始的跳数,topn是每个级别中要获取的最大链路数。所以AFAIK通过增加深度肯定会增加爬行的时间。将深度从100更改为1000应该会大大增加爬行时间。
https://stackoverflow.com/questions/11304550
复制相似问题