问防御粗野的网络爬虫
EN

Webmasters Stack Exchange用户

提问于 2011-09-27 23:15:44

回答 1查看 468关注 0票数 2

可能重复: 如何追踪和阻止盗贼机器人？

昨天我出了一件事，我的网站被一个无视我的robots.txt的网络爬虫摧毁了。我很确定没有恶意的东西，但是爬虫在页面中游走了，这些页面用耗时的请求完全重载了我的数据库。

“下一次”该怎么办？

(1)很明显，只要点击一个链接，就很难触发繁重的请求。

(2)我的另一个想法是添加“毒丸”链接，这些链接对人类来说是看不见的，但会产生将IP地址标记为机器人的副作用。

问题是，这是否有可能引发假阳性，例如，因为浏览器试图预取“标记为机器人”链接。

发布于 2011-09-27 23:23:53

好吧..。我曾经做过的一件事是使用perl设置一个指向无休止迭代链接的链接，确保每次生成URL的一个新部分，如下所示：

www.mysite.com/traplink
www.mysite.com/traplink/trap01/
www.mysite.com/traplink/trap01/trap02/
www.mysite.com/traplink/trap01/trap02/trap03/

沿着这些思路还有其他的选择，但是你明白了。

票数 0

页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://webmasters.stackexchange.com/questions/20257

复制

相似问题

问防御粗野的网络爬虫EN