我目前正在编写视图/访问者计数器的代码,该计数器检查访问者是人还是机器人/爬虫。我已经找到了一些解决办法,我用过。其中之一是cookie (用Javascript设置),但有些机器人已经允许设置cookie,而有些人则不允许设置cookie。
现在,我在质疑在HTML 5存储中设置某些内容是否更有效。也许机器人不太可能像cookie一样支持HTML 5存储技术,或者呢?是否可以在任何(人)浏览器上禁用HTML 5存储?我还没找到任何选择。
谢谢,山姆。
PS.:在我的脚本中已经知道/使用的一些有用的/信息丰富的东西:
发布于 2018-01-10 12:05:37
我使用这个工具通过Google呈现页面,结果是Google支持HTML5存储
测试存储支持项的代码:https://codepen.io/gab/pen/AxFoB
此代码使用此代码检测:
/* Detect browser can use web storage */
if (!typeof(Storage) !== 'undefined') {
$('#yay').fadeIn('slow');
} else {
$('#ooh').fadeIn('slow');
}获取和呈现为bot的工具:https://technicalseo.com/seo-tools/fetch-render/
渲染结果:

发布于 2018-01-10 12:00:35
爬虫通常不会执行Javascript。这样你就可以监视JS的访问了。您也可以过滤掉机器人的用户代理。
这是我在爬虫用户代理中找到的第一个列表。
https://deviceatlas.com/blog/list-of-web-crawlers-user-agents
https://stackoverflow.com/questions/48186860
复制相似问题