文章/答案/技术大牛

发布

社区首页 >问答首页 >网络爬虫http请求的适当礼节

问网络爬虫http请求的适当礼节
EN

Stack Overflow用户

提问于 2009-04-28 16:02:52

回答 2查看 3.7K关注 0票数 8

我有一个简单的网络爬虫来请求从网站的网站地图，我需要缓存和索引的所有页面。在几次请求之后，网站开始提供空白页面。

他们的robots.txt中除了指向他们网站地图的链接之外什么都没有，所以我假设我没有违反他们的“规则”。我有一个描述性的标题，它准确地链接到我的意图，我爬行的唯一页面是从他们的网站地图。

http状态码仍然正常，所以我只能想象他们在短时间内阻止了大量的http请求。请求之间的合理延迟量是多少？

有没有其他我忽略的可能导致这个问题的考虑因素？

web-crawler

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-04-28 16:12:02

每个站点都有不同的爬虫和滥用特征。

任何爬虫的关键是模仿人类的活动，并遵守robots.txt。

一次详尽的爬行会让一些网站绊倒，不管你的速度有多慢，它们都会关闭你，而有些主机并不介意爬虫一口气把所有东西都吸光。

一般来说，您不希望请求页面的速度超过每分钟6个(大约是人类的速度)。
按照网页上的可见性顺序跟踪链接会更安全。
尝试忽略网页上不可见的链接(许多人使用蜜罐)。

如果所有其他方法都失败了，那么请求速度不要超过每分钟一个页面。如果一个网站以这种速度屏蔽了你，那么直接联系他们--他们显然不希望你以这种方式使用他们的内容。

票数 9

Stack Overflow用户

发布于 2009-04-28 16:15:56

我猜维基百科上有关于这个话题的a decent reference。遵守它们，出于礼貌，多一点。

例如，我可能会将连接速度最大化为每秒一次命中，否则我将冒着无意中遭受DoS攻击的风险。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/798695

复制

相似问题

问网络爬虫http请求的适当礼节
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫http请求的适当礼节EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问网络爬虫http请求的适当礼节
EN