
一、先看几个真实案例
腾讯云 EdgeOne 刚刚发布了《腾讯云2025年DDoS与应用安全威胁趋势报告》。
在聊报告之前,先看一组我们在EdgeOne上观察到的典型AI爬虫命中数据:
站点类型 | 单日AI爬虫请求量 |
|---|---|
一个电商导购站 | 近20万次 |
一个IT技术教程站 | 近19万次 |
一个小说网站 | 近18万次 |
一个在线工具站 | 超16万次 |
一个智能家居极客社区 | 约5万次 |
这些不是什么大型互联网平台——就是个人站长、小团队在运营的站点。一个个人站,一天就被AI爬虫请求了近20万次。
而且这不是恶意攻击,是AI爬虫在正常地批量抓取页面内容。你的站可能也在被抓,只是你不知道——因为AI爬虫通常不执行JavaScript,它们的访问不会出现在Google Analytics或百度统计里。
带着这些案例,我们来看这次报告里的几个关键发现。

报告的第一个核心发现:Bot流量已经占到全网互联网流量的近四成,已经成为互联网流量的重要组成部分。
其中AI爬虫是增长最快的类型。各大AI公司的爬虫程序正在全网范围内批量抓取内容,为大模型训练和AI搜索提供语料。它们的抓取是无差别的——不看你的站大不大、有没有名气,只要能被公开访问就会被扫到。
报告还揭示了一个行业差异:政务类网站的Bot率最高,媒体和内容类站点紧随其后。如果你运营的是内容型站点,被AI爬虫覆盖的概率更高。

传统Bot的威胁主要是安全层面的(DDoS、CC攻击、恶意扫描等)。但AI爬虫带来了一种全新的影响——它在重新分配内容的价值。
具体来说:
● AI爬虫抓取你的原创内容 → 用于大模型训练 → AI可以直接回答用户的问题 → 用户不需要再来你的站了
● AI搜索引擎抓取你的内容 → 在搜索结果中直接呈现摘要答案 → 用户点击进入原站的动力下降
● 电商/导购站的价格数据被批量获取 → 可能被用于训练自动比价AI → 你的核心商业数据变成了别人的训练素材
这和传统的"被攻击"不一样。你的站没有宕机、没有被入侵,但你的内容资产和数据资产在不知不觉中被获取和利用。
报告还指出了一个现实困难:传统的手动封禁策略对AI爬虫力不从心。
● 封IP → AI爬虫使用动态IP池轮换,逐个封禁跟不上
● robots.txt → 只是"君子协定",越来越多的AI爬虫并不遵守
● 封UA → 部分AI爬虫会伪装User-Agent,不一定能通过UA识别
● 手动限速 → AI爬虫的单次请求频率不一定高,但一天累计下来就是几万到几十万次,很难通过简单的频率阈值来拦截
对没有专职安全人员的个人开发者来说,持续跟踪和封禁新出现的AI爬虫,成本太高。
回到开头的案例,不同类型的站点受AI爬虫的影响各不相同:
● 公开内容进入模型训练后,AI可以直接回答用户问题,减少用户回访原站的动力
● 社区里用户多年积累的知识和讨论,被大模型快速"学走",社区的独占价值被削弱
● 内容被AI改写后出现在其他地方,有稀释搜索排名的风险
● 核心商业数据(价格策略、选品数据)被免费获取,可能被用于训练自动比价或选品AI
● 爬虫请求不产生点击,拉低CTR数据,影响广告和佣金转化效果
● 高频请求消耗服务器资源,旺季可能影响真实买家的访问体验
主要影响:
● AI爬虫只抓数据不渲染广告——如果你靠广告变现,广告效果被严重稀释
● API接口的返回值可能被抓取,白白消耗调用配额
● 小站长的低配服务器资源有限,高频爬虫请求可能直接影响正常用户的访问速度
不管你是哪类站点,AI爬虫的每一次请求都在消耗你的带宽和算力。如果你用按量计费的云服务,这些成本你在承担,但没有产生任何收入。
前面说过,AI爬虫不执行JS,所以不会出现在你的用户统计里。你的数据面板看起来一切正常,但服务器负载和带宽消耗在悄悄增长。
针对以上问题,我们在EdgeOne「基础Bot管理」中上线了AI爬虫处置功能,一键开启,免费可用。
● 内置主流AI爬虫特征库,覆盖20+种AI爬虫,自动识别
● 特征库持续更新,新出现的AI爬虫会在识别后加入
● 完全不影响百度、Google等搜索引擎爬虫——你的SEO不受任何影响
你可以根据业务需要选择处置策略:
● 拦截——直接阻断AI爬虫请求。适合想保护原创内容、保护API数据的站点
● 放行——允许AI爬虫访问。适合希望内容被AI索引、通过AI应用触达更多用户的站点(比如产品官网、营销页)
● 观察——只记日志不做处置。还没想好怎么配,先记录一段时间再决定
● 挑战——弹出人机验证。注意:API域名不要用JS挑战,会导致客户端调用失败
可以对不同域名设置不同策略——比如博客域名选拦截、官网域名选放行。
控制台 → 站点 →「安全防护」→「Web防护」→ 域名级防护策略 → 目标域名 →「Bot管理」→「基础Bot管理」→「AI爬虫处置」
不需要写代码、不需要研究规则,3分钟完成配置,所有套餐(含免费版)都能用。
AI爬虫之外,我们的报告还分析了DDoS攻击、HTTP/S应用层攻击等更广泛的安全威胁。
很多开发者的困扰不是"不想配安全",而是——面对各类安全威胁时不确定自己的站点该优先防什么、规则该怎么配置。
「安全配置指引」让规则配置更简单: 在指标分析页面看到可疑流量特征时,选中域名和 Path,点击「创建自定义规则」即可携带当前条件直接跳转到规则配置页,无需重复手动填写匹配条件。
操作路径:控制台 →「数据分析」→「指标分析」→ 筛选域名和 Path →「创建自定义规则」→ 跳转至规则配置页(匹配条件自动带入)
本文聚焦的是报告中AI爬虫和Bot相关的部分。完整报告还覆盖了更广泛的安全威胁趋势:
● 2025年DDoS攻击趋势全景——攻击峰值突破 4 Tbps,同比增长近3倍,年末强度创历史新高
● HTTP/S应用层攻击从"小规模试探"到"超大规模集中爆发"的模式转变
● 各行业安全威胁对比——游戏行业是DDoS首要目标,政务类网站Bot率最高
● AI爬虫的技术特征与演进路径
● EdgeOne全套安全防护方案实践
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。