首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >.NET区分搜索引擎和人的库

.NET区分搜索引擎和人的库
EN

Stack Overflow用户
提问于 2013-06-02 14:45:53
回答 1查看 85关注 0票数 0

我正在寻找一个独立的服务器端解决方案,以识别搜索引擎爬虫和其他机器人从人(互动)访问者。我期待一个基于User-Agent:分析的算法。该组件将用于对请求进行分类,无论是来自ASP.NET (MVC)网站中的机器人还是人类访问者。对于访问我们的国际站点的人,将执行基于Accept-Language:和/或地理定位的自动重定向到我们的本地化网站。当搜索爬虫访问我们的站点时,这种行为是不需要的,它需要查看站点的原样,而不需要重定向。

到目前为止,我只是找到了机器人的User-Agent:字符串列表,比如。然而,虽然这是一个简单的任务,而不是我们自己的组件,我更喜欢使用第三方的一个,以避免处理更新,这将需要定期研究。

构成部分所需资源:

  • 纯.NET元件
  • 不定期对外部服务进行外部调用,以保持低请求处理延迟。
  • 更新组件/其配置的服务

替代方案:接受待检查的User-Agent:字符串的web服务。然后缓存结果以加速处理进一步的请求。在这种情况下,进一步的值,如基于ip的地理定位服务将是一个加号。

商业选择是可以的。仅限于识别“诚实”的机器人,而不假装是其他东西是可以的。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-06-02 15:59:38

我自己还没有使用过它,但其中一个可能有用的是UAS分析器。它们有一个web以及独立的可安装组件(.NET是可用的)。

快速查看web 表明它确实有一个代理分类器。这些是代理类型-来自用户代理字符串xml页面

代码语言:javascript
复制
typ result
----------
"robot"
"browser"
"mobile browser"
"email client"
"wap browser"
"offline browser"
"ua anonymizer"
"library"
"other"

还不清楚可安装(.NET)组件与web之间存在什么差异。这需要你做一点研究。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16883841

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档