我正在寻找一个独立的服务器端解决方案,以识别搜索引擎爬虫和其他机器人从人(互动)访问者。我期待一个基于User-Agent:分析的算法。该组件将用于对请求进行分类,无论是来自ASP.NET (MVC)网站中的机器人还是人类访问者。对于访问我们的国际站点的人,将执行基于Accept-Language:和/或地理定位的自动重定向到我们的本地化网站。当搜索爬虫访问我们的站点时,这种行为是不需要的,它需要查看站点的原样,而不需要重定向。
到目前为止,我只是找到了机器人的User-Agent:字符串列表,比如这或这。然而,虽然这是一个简单的任务,而不是我们自己的组件,我更喜欢使用第三方的一个,以避免处理更新,这将需要定期研究。
构成部分所需资源:
替代方案:接受待检查的User-Agent:字符串的web服务。然后缓存结果以加速处理进一步的请求。在这种情况下,进一步的值,如基于ip的地理定位服务将是一个加号。
商业选择是可以的。仅限于识别“诚实”的机器人,而不假装是其他东西是可以的。
发布于 2013-06-02 15:59:38
我自己还没有使用过它,但其中一个可能有用的是UAS分析器。它们有一个web以及独立的可安装组件(.NET是可用的)。
快速查看web 表明它确实有一个代理分类器。这些是代理类型-来自用户代理字符串xml页面
typ result
----------
"robot"
"browser"
"mobile browser"
"email client"
"wap browser"
"offline browser"
"ua anonymizer"
"library"
"other"还不清楚可安装(.NET)组件与web之间存在什么差异。这需要你做一点研究。
https://stackoverflow.com/questions/16883841
复制相似问题