问Heritrix Crawl是确定性的吗？
EN

Stack Overflow用户

提问于 2016-02-03 15:43:18

回答 1查看 87关注 0票数 0

假设有一个网站abc.com，我们在abc.com上抓取100个页面，如下所示。

第1天:通过将maxDocumentsToDownload指定为100，在heritrix中创建抓取作业。第2天:在heritrix中克隆上述作业并运行。

如果网站在两天内没有变化，我会得到相同的100个页面还是不同的100个页面？

如果需要更多的信息，请让我知道

谢谢，Hareesh

发布于 2016-02-03 21:30:53

在第二天克隆作业后，它将基本上下载相同的页面集，除非网站(网页)更新。另一方面，在运行作业时，Heritrix尽量不对同一页面进行两次爬行。因为abc.com和abc.com/index可能指向相同的webp

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35171166

复制

相似问题

问Heritrix Crawl是确定性的吗？EN