文章/答案/技术大牛

发布

社区首页 >问答首页 >“HTTP Error 403: request disallowed by robots.txt”是在哪一端生成的？

问“HTTP Error 403: request disallowed by robots.txt”是在哪一端生成的？
EN

Stack Overflow用户

提问于 2011-11-07 17:37:56

回答 2查看 967关注 0票数 3

我正在尝试机械化，使一些例程变得更简单。我已经设法通过使用br.set_handle_robots(False)绕过了这个错误。有关于使用它是多么合乎道德的讨论。我想知道的是这个错误是在哪里产生的，是在我这边，还是在服务器端？我的意思是，机械化是在看到某些robots.txt规则时抛出异常，还是在检测到我使用自动化工具时服务器拒绝请求？

python

mechanize

回答 2

Stack Overflow用户

回答已采纳

发布于 2011-11-07 17:51:44

服务器检测用户代理。如果用户代理与robots.txt中的一个匹配，则客户端将应用规则。默认情况下，mechanize返回"Python-urllib/2.7“。

请参阅http://en.wikipedia.org/wiki/Robots_exclusion_standard

票数 2

Stack Overflow用户

发布于 2011-11-07 18:40:31

服务器会用这样的响应来阻止你的活动。

这是你的网站吗？如果没有，请遵循以下规则：

服从robots.txt文件
在请求之间设置延迟，即使robots.txt不需要它也是如此。
在用户代理标头中提供一些联系信息(电子邮件或页面URL)。

否则，准备好网站所有者阻止您基于用户代理，IP或其他信息，他认为区分您与合法用户。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8034767

复制

相似问题

问“HTTP Error 403: request disallowed by robots.txt”是在哪一端生成的？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问“HTTP Error 403: request disallowed by robots.txt”是在哪一端生成的？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问“HTTP Error 403: request disallowed by robots.txt”是在哪一端生成的？
EN