可能重复: 如何追踪和阻止盗贼机器人?
昨天我出了一件事,我的网站被一个无视我的robots.txt的网络爬虫摧毁了。我很确定没有恶意的东西,但是爬虫在页面中游走了,这些页面用耗时的请求完全重载了我的数据库。
“下一次”该怎么办?
(1)很明显,只要点击一个链接,就很难触发繁重的请求。
(2)我的另一个想法是添加“毒丸”链接,这些链接对人类来说是看不见的,但会产生将IP地址标记为机器人的副作用。
问题是,这是否有可能引发假阳性,例如,因为浏览器试图预取“标记为机器人”链接。
发布于 2011-09-27 23:23:53
好吧..。我曾经做过的一件事是使用perl设置一个指向无休止迭代链接的链接,确保每次生成URL的一个新部分,如下所示:
www.mysite.com/traplink
www.mysite.com/traplink/trap01/
www.mysite.com/traplink/trap01/trap02/
www.mysite.com/traplink/trap01/trap02/trap03/沿着这些思路还有其他的选择,但是你明白了。
https://webmasters.stackexchange.com/questions/20257
复制相似问题