首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >“HTTP Error 403: request disallowed by robots.txt”是在哪一端生成的?

“HTTP Error 403: request disallowed by robots.txt”是在哪一端生成的?
EN

Stack Overflow用户
提问于 2011-11-07 17:37:56
回答 2查看 967关注 0票数 3

我正在尝试机械化,使一些例程变得更简单。我已经设法通过使用br.set_handle_robots(False)绕过了这个错误。有关于使用它是多么合乎道德的讨论。我想知道的是这个错误是在哪里产生的,是在我这边,还是在服务器端?我的意思是,机械化是在看到某些robots.txt规则时抛出异常,还是在检测到我使用自动化工具时服务器拒绝请求?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-07 17:51:44

服务器检测用户代理。如果用户代理与robots.txt中的一个匹配,则客户端将应用规则。默认情况下,mechanize返回"Python-urllib/2.7“。

请参阅http://en.wikipedia.org/wiki/Robots_exclusion_standard

票数 2
EN

Stack Overflow用户

发布于 2011-11-07 18:40:31

服务器会用这样的响应来阻止你的活动。

这是你的网站吗?如果没有,请遵循以下规则:

  1. 服从robots.txt文件
  2. 在请求之间设置延迟,即使robots.txt不需要它也是如此。
  3. 在用户代理标头中提供一些联系信息(电子邮件或页面URL)。

否则,准备好网站所有者阻止您基于用户代理,IP或其他信息,他认为区分您与合法用户。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8034767

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档