文章/答案/技术大牛

发布

社区首页 >问答首页 >.NET区分搜索引擎和人的库

问.NET区分搜索引擎和人的库
EN

Stack Overflow用户

提问于 2013-06-02 14:45:53

回答 1查看 85关注 0票数 0

我正在寻找一个独立的服务器端解决方案，以识别搜索引擎爬虫和其他机器人从人(互动)访问者。我期待一个基于User-Agent:分析的算法。该组件将用于对请求进行分类，无论是来自ASP.NET (MVC)网站中的机器人还是人类访问者。对于访问我们的国际站点的人，将执行基于Accept-Language:和/或地理定位的自动重定向到我们的本地化网站。当搜索爬虫访问我们的站点时，这种行为是不需要的，它需要查看站点的原样，而不需要重定向。

到目前为止，我只是找到了机器人的User-Agent:字符串列表，比如这或这。然而，虽然这是一个简单的任务，而不是我们自己的组件，我更喜欢使用第三方的一个，以避免处理更新，这将需要定期研究。

构成部分所需资源：

纯.NET元件
不定期对外部服务进行外部调用，以保持低请求处理延迟。
更新组件/其配置的服务

替代方案:接受待检查的User-Agent:字符串的web服务。然后缓存结果以加速处理进一步的请求。在这种情况下，进一步的值，如基于ip的地理定位服务将是一个加号。

商业选择是可以的。仅限于识别“诚实”的机器人，而不假装是其他东西是可以的。

.net

iis

http-headers

search-engine

user-agent

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-06-02 15:59:38

我自己还没有使用过它，但其中一个可能有用的是UAS分析器。它们有一个web以及独立的可安装组件(.NET是可用的)。

快速查看web 表明它确实有一个代理分类器。这些是代理类型-来自用户代理字符串xml页面

typ result
----------
"robot"
"browser"
"mobile browser"
"email client"
"wap browser"
"offline browser"
"ua anonymizer"
"library"
"other"

还不清楚可安装(.NET)组件与web之间存在什么差异。这需要你做一点研究。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/16883841

复制

相似问题

问.NET区分搜索引擎和人的库
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问.NET区分搜索引擎和人的库EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问.NET区分搜索引擎和人的库
EN