假设有一个网站abc.com,我们在abc.com上抓取100个页面,如下所示。
第1天:通过将maxDocumentsToDownload指定为100,在heritrix中创建抓取作业。第2天:在heritrix中克隆上述作业并运行。
如果网站在两天内没有变化,我会得到相同的100个页面还是不同的100个页面?
如果需要更多的信息,请让我知道
谢谢,Hareesh
发布于 2016-02-03 21:30:53
在第二天克隆作业后,它将基本上下载相同的页面集,除非网站(网页)更新。另一方面,在运行作业时,Heritrix尽量不对同一页面进行两次爬行。因为abc.com和abc.com/index可能指向相同的webp
https://stackoverflow.com/questions/35171166
复制相似问题