我正在开发一个简单的应用程序,从一个网站中提取一些货币兑换,这时我收到了一条错误消息(下面),上面说他们没有自动提取策略。
自动提取禁止的
自动提取我们的内容是禁止的。见http://www.xe.com/errors/noautoextract.htm.
我并不是有意违反他们的政策,但我很好奇他们是如何判断的。有人能指点我吗?
发布于 2012-02-08 21:05:02
1)用户-代理
2)引入Javascript弹出,类似于Click OK to enter。
3)如果您不在NAT后面,则从特定ip地址计算请求/小时数。
要了解更多细节,请看一下由web-strategies-for-programming-websites-that-don-t-expected-it asheesh laroia编写的Pycon talk 。
还请看一下机器人排斥的一个标准。
一些网站也使用
4) Captchas和
5)重定向,这意味着您需要添加一个HTTP Referrer来获取数据。
发布于 2012-02-08 21:04:05
它是通过实现机器人排斥协议在HTTP级别完成的。
来自机器人排除标准
机器人排除标准,也被称为机器人排斥协议或robots.txt协议,是一种公约,以防止合作的网络爬虫和其他网络机器人访问网站的全部或部分,否则是公开查看。机器人经常被搜索引擎用来分类和归档网站,或者被网站管理员用来校对源代码。
发布于 2012-02-08 21:04:45
我认为他们至少观察了两个参数:
https://stackoverflow.com/questions/9201311
复制相似问题