首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >网站如何检测到自动提取?

网站如何检测到自动提取?
EN

Stack Overflow用户
提问于 2012-02-08 20:58:48
回答 4查看 169关注 0票数 0

我正在开发一个简单的应用程序,从一个网站中提取一些货币兑换,这时我收到了一条错误消息(下面),上面说他们没有自动提取策略。

自动提取禁止的

自动提取我们的内容是禁止的。见http://www.xe.com/errors/noautoextract.htm.

我并不是有意违反他们的政策,但我很好奇他们是如何判断的。有人能指点我吗?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2012-02-08 21:05:02

1)用户-代理

2)引入Javascript弹出,类似于Click OK to enter

3)如果您不在NAT后面,则从特定ip地址计算请求/小时数。

要了解更多细节,请看一下由web-strategies-for-programming-websites-that-don-t-expected-it asheesh laroia编写的Pycon talk 。

还请看一下机器人排斥的一个标准

一些网站也使用

4) Captchas和

5)重定向,这意味着您需要添加一个HTTP Referrer来获取数据。

票数 2
EN

Stack Overflow用户

发布于 2012-02-08 21:04:05

它是通过实现机器人排斥协议在HTTP级别完成的。

来自机器人排除标准

机器人排除标准,也被称为机器人排斥协议或robots.txt协议,是一种公约,以防止合作的网络爬虫和其他网络机器人访问网站的全部或部分,否则是公开查看。机器人经常被搜索引擎用来分类和归档网站,或者被网站管理员用来校对源代码。

票数 1
EN

Stack Overflow用户

发布于 2012-02-08 21:04:45

我认为他们至少观察了两个参数:

  • 在一个时间间隔内来自同一个IP的查询数。
  • HTTP查询中的用户代理头。如果它是空的,或者它看起来不像一个web浏览器的用户-代理头,特别是如果它表示"Java“或类似的东西;),他们可以假设它不是一个”合理的使用“。
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9201311

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档