首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >一个技术博客,一天被AI爬虫请求了18万次 | 2025安全威胁报告

一个技术博客,一天被AI爬虫请求了18万次 | 2025安全威胁报告

原创
作者头像
EdgeOne 小助手
发布2026-04-21 15:59:49
发布2026-04-21 15:59:49
1900
举报

一、先看几个真实案例

腾讯云 EdgeOne 刚刚发布了《腾讯云2025年DDoS与应用安全威胁趋势报告》。

在聊报告之前,先看一组我们在EdgeOne上观察到的典型AI爬虫命中数据:

站点类型

单日AI爬虫请求量

一个电商导购站

近20万次

一个IT技术教程站

近19万次

一个小说网站

近18万次

一个在线工具站

超16万次

一个智能家居极客社区

约5万次

这些不是什么大型互联网平台——就是个人站长、小团队在运营的站点。一个个人站,一天就被AI爬虫请求了近20万次。

而且这不是恶意攻击,是AI爬虫在正常地批量抓取页面内容。你的站可能也在被抓,只是你不知道——因为AI爬虫通常不执行JavaScript,它们的访问不会出现在Google Analytics或百度统计里

带着这些案例,我们来看这次报告里的几个关键发现。

二、报告说了什么?

📊 Bot流量占全网近四成,AI爬虫是最大增量

报告的第一个核心发现:Bot流量已经占到全网互联网流量的近四成,已经成为互联网流量的重要组成部分。

其中AI爬虫是增长最快的类型。各大AI公司的爬虫程序正在全网范围内批量抓取内容,为大模型训练和AI搜索提供语料。它们的抓取是无差别的——不看你的站大不大、有没有名气,只要能被公开访问就会被扫到。

报告还揭示了一个行业差异:政务类网站的Bot率最高,媒体和内容类站点紧随其后。如果你运营的是内容型站点,被AI爬虫覆盖的概率更高。

免费获取完整报告

📊 AI爬虫带来的不只是流量消耗——它在改变内容的价值链

传统Bot的威胁主要是安全层面的(DDoS、CC攻击、恶意扫描等)。但AI爬虫带来了一种全新的影响——它在重新分配内容的价值

具体来说:

● AI爬虫抓取你的原创内容 → 用于大模型训练 → AI可以直接回答用户的问题 → 用户不需要再来你的站了

● AI搜索引擎抓取你的内容 → 在搜索结果中直接呈现摘要答案 → 用户点击进入原站的动力下降

● 电商/导购站的价格数据被批量获取 → 可能被用于训练自动比价AI → 你的核心商业数据变成了别人的训练素材

这和传统的"被攻击"不一样。你的站没有宕机、没有被入侵,但你的内容资产和数据资产在不知不觉中被获取和利用

📊 手动封禁AI爬虫,效率很低

报告还指出了一个现实困难:传统的手动封禁策略对AI爬虫力不从心。

封IP → AI爬虫使用动态IP池轮换,逐个封禁跟不上

robots.txt → 只是"君子协定",越来越多的AI爬虫并不遵守

封UA → 部分AI爬虫会伪装User-Agent,不一定能通过UA识别

手动限速 → AI爬虫的单次请求频率不一定高,但一天累计下来就是几万到几十万次,很难通过简单的频率阈值来拦截

对没有专职安全人员的个人开发者来说,持续跟踪和封禁新出现的AI爬虫,成本太高。

三、对你具体有什么影响?

回到开头的案例,不同类型的站点受AI爬虫的影响各不相同:

内容站/博客/技术社区

● 公开内容进入模型训练后,AI可以直接回答用户问题,减少用户回访原站的动力

● 社区里用户多年积累的知识和讨论,被大模型快速"学走",社区的独占价值被削弱

● 内容被AI改写后出现在其他地方,有稀释搜索排名的风险

电商/导购/有价格信息的站

● 核心商业数据(价格策略、选品数据)被免费获取,可能被用于训练自动比价或选品AI

● 爬虫请求不产生点击,拉低CTR数据,影响广告和佣金转化效果

● 高频请求消耗服务器资源,旺季可能影响真实买家的访问体验

在线工具站 / API服务

主要影响

● AI爬虫只抓数据不渲染广告——如果你靠广告变现,广告效果被严重稀释

● API接口的返回值可能被抓取,白白消耗调用配额

● 小站长的低配服务器资源有限,高频爬虫请求可能直接影响正常用户的访问速度

所有站点共同面临的:隐形资源消耗

不管你是哪类站点,AI爬虫的每一次请求都在消耗你的带宽和算力。如果你用按量计费的云服务,这些成本你在承担,但没有产生任何收入

前面说过,AI爬虫不执行JS,所以不会出现在你的用户统计里。你的数据面板看起来一切正常,但服务器负载和带宽消耗在悄悄增长。

四、EdgeOne AI爬虫处置:一键开启,自动识别

针对以上问题,我们在EdgeOne「基础Bot管理」中上线了AI爬虫处置功能,一键开启,免费可用。

自动识别,不用你写规则

● 内置主流AI爬虫特征库,覆盖20+种AI爬虫,自动识别

● 特征库持续更新,新出现的AI爬虫会在识别后加入

完全不影响百度、Google等搜索引擎爬虫——你的SEO不受任何影响

灵活处置,不是一刀切

你可以根据业务需要选择处置策略:

拦截——直接阻断AI爬虫请求。适合想保护原创内容、保护API数据的站点

放行——允许AI爬虫访问。适合希望内容被AI索引、通过AI应用触达更多用户的站点(比如产品官网、营销页)

观察——只记日志不做处置。还没想好怎么配,先记录一段时间再决定

挑战——弹出人机验证。注意:API域名不要用JS挑战,会导致客户端调用失败

可以对不同域名设置不同策略——比如博客域名选拦截、官网域名选放行。

所有套餐可用,3分钟开启

控制台 → 站点 →「安全防护」→「Web防护」→ 域名级防护策略 → 目标域名 →「Bot管理」→「基础Bot管理」→「AI爬虫处置」

不需要写代码、不需要研究规则,3分钟完成配置,所有套餐(含免费版)都能用。

立即配置

五、不知道该配什么安全?系统帮你推荐

AI爬虫之外,我们的报告还分析了DDoS攻击、HTTP/S应用层攻击等更广泛的安全威胁。

很多开发者的困扰不是"不想配安全",而是——面对各类安全威胁时不确定自己的站点该优先防什么、规则该怎么配置。

「安全配置指引」让规则配置更简单: 在指标分析页面看到可疑流量特征时,选中域名和 Path,点击「创建自定义规则」即可携带当前条件直接跳转到规则配置页,无需重复手动填写匹配条件。

操作路径:控制台 →「数据分析」→「指标分析」→ 筛选域名和 Path →「创建自定义规则」→ 跳转至规则配置页(匹配条件自动带入)

立即配置

六、完整报告

本文聚焦的是报告中AI爬虫和Bot相关的部分。完整报告还覆盖了更广泛的安全威胁趋势:

● 2025年DDoS攻击趋势全景——攻击峰值突破 4 Tbps,同比增长近3倍,年末强度创历史新高

● HTTP/S应用层攻击从"小规模试探"到"超大规模集中爆发"的模式转变

● 各行业安全威胁对比——游戏行业是DDoS首要目标,政务类网站Bot率最高

● AI爬虫的技术特征与演进路径

● EdgeOne全套安全防护方案实践

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 二、报告说了什么?
    • 📊 Bot流量占全网近四成,AI爬虫是最大增量
    • 📊 AI爬虫带来的不只是流量消耗——它在改变内容的价值链
    • 📊 手动封禁AI爬虫,效率很低
  • 三、对你具体有什么影响?
    • 内容站/博客/技术社区
    • 电商/导购/有价格信息的站
    • 在线工具站 / API服务
    • 所有站点共同面临的:隐形资源消耗
  • 四、EdgeOne AI爬虫处置:一键开启,自动识别
    • 自动识别,不用你写规则
    • 灵活处置,不是一刀切
    • 所有套餐可用,3分钟开启
  • 五、不知道该配什么安全?系统帮你推荐
  • 六、完整报告
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档