我正在尝试机械化,使一些例程变得更简单。我已经设法通过使用br.set_handle_robots(False)绕过了这个错误。有关于使用它是多么合乎道德的讨论。我想知道的是这个错误是在哪里产生的,是在我这边,还是在服务器端?我的意思是,机械化是在看到某些robots.txt规则时抛出异常,还是在检测到我使用自动化工具时服务器拒绝请求?
发布于 2011-11-07 17:51:44
服务器检测用户代理。如果用户代理与robots.txt中的一个匹配,则客户端将应用规则。默认情况下,mechanize返回"Python-urllib/2.7“。
请参阅http://en.wikipedia.org/wiki/Robots_exclusion_standard
发布于 2011-11-07 18:40:31
服务器会用这样的响应来阻止你的活动。
这是你的网站吗?如果没有,请遵循以下规则:
robots.txt文件robots.txt不需要它也是如此。否则,准备好网站所有者阻止您基于用户代理,IP或其他信息,他认为区分您与合法用户。
https://stackoverflow.com/questions/8034767
复制相似问题