首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >防御粗野的网络爬虫

防御粗野的网络爬虫
EN

Webmasters Stack Exchange用户
提问于 2011-09-27 23:15:44
回答 1查看 468关注 0票数 2

可能重复: 如何追踪和阻止盗贼机器人?

昨天我出了一件事,我的网站被一个无视我的robots.txt的网络爬虫摧毁了。我很确定没有恶意的东西,但是爬虫在页面中游走了,这些页面用耗时的请求完全重载了我的数据库。

“下一次”该怎么办?

(1)很明显,只要点击一个链接,就很难触发繁重的请求。

(2)我的另一个想法是添加“毒丸”链接,这些链接对人类来说是看不见的,但会产生将IP地址标记为机器人的副作用。

问题是,这是否有可能引发假阳性,例如,因为浏览器试图预取“标记为机器人”链接。

EN

回答 1

Webmasters Stack Exchange用户

发布于 2011-09-27 23:23:53

好吧..。我曾经做过的一件事是使用perl设置一个指向无休止迭代链接的链接,确保每次生成URL的一个新部分,如下所示:

代码语言:javascript
复制
www.mysite.com/traplink
www.mysite.com/traplink/trap01/
www.mysite.com/traplink/trap01/trap02/
www.mysite.com/traplink/trap01/trap02/trap03/

沿着这些思路还有其他的选择,但是你明白了。

票数 0
EN
页面原文内容由Webmasters Stack Exchange提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://webmasters.stackexchange.com/questions/20257

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档