最近,我在一个网站上放了一些隐藏链接,以便捕获网络爬虫。(使用CSS可见性隐藏样式,以避免人类用户访问它)。
无论如何,我发现有很多HTTP请求都引用了访问过隐藏链接的浏览器。
E.g : "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31"所以现在我的问题是:
(1)这些是网络爬虫吗?否则会发生什么呢?
(2)它们是恶意的吗?
(3)有没有办法描述他们的行为?
我在网上搜索了一下,但找不到任何有价值的信息。你能为我提供一些资源吗,或者任何帮助都将不胜感激。
发布于 2013-12-30 19:02:03
这是一个HTTP user代理。它们根本不是恶意的。它遵循以下模式,例如Mozilla/<version>等。例如,浏览器就是一个用户代理。但是,它们可以被攻击者使用,这可以通过查看异常来识别。您可以阅读此paper.
超文本传输协议(
)使用" user -Agent“头识别发出请求的客户端软件,即使客户端不是由用户操作的。
你的问题的答案依次是:
https://stackoverflow.com/questions/20836990
复制相似问题