首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Heritrix Crawl是确定性的吗?

Heritrix Crawl是确定性的吗?
EN

Stack Overflow用户
提问于 2016-02-03 15:43:18
回答 1查看 87关注 0票数 0

假设有一个网站abc.com,我们在abc.com上抓取100个页面,如下所示。

第1天:通过将maxDocumentsToDownload指定为100,在heritrix中创建抓取作业。第2天:在heritrix中克隆上述作业并运行。

如果网站在两天内没有变化,我会得到相同的100个页面还是不同的100个页面?

如果需要更多的信息,请让我知道

谢谢,Hareesh

EN

回答 1

Stack Overflow用户

发布于 2016-02-03 21:30:53

在第二天克隆作业后,它将基本上下载相同的页面集,除非网站(网页)更新。另一方面,在运行作业时,Heritrix尽量不对同一页面进行两次爬行。因为abc.com和abc.com/index可能指向相同的webp

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35171166

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档