首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Anthropic 最强模型Claude Fable 5发布,震惊到后背发凉,仿佛看到......

Anthropic 最强模型Claude Fable 5发布,震惊到后背发凉,仿佛看到......

作者头像
Ai学习的老章
发布2026-06-11 20:18:01
发布2026-06-11 20:18:01
1840
举报
同一个底,两张面孔
同一个底,两张面孔

同一个底,两张面孔

大家好,我是 Ai 学习的老章

昨晚 Anthropic 一口气扔出俩模型——Claude Fable 5Claude Mythos 5,看起来是俩,其实底下是同一个,区别只在"刹车系统"上

Fable 是寓言(给小孩讲的故事),Mythos 是神话(给成年人讲的故事),命名本身就把"分级"二字写脸上了

简介:同一个底模,两张面孔

先把这次发布的逻辑捋清楚

维度

Claude Fable 5

Claude Mythos 5

底模

同一个

同一个

面向对象

所有人(公开 GA)

Project Glasswing 受邀方

安全分类器

全开(网络安全 / 生物化学 / 蒸馏)

网络安全那层关掉

API ID

claude-fable-5

claude-mythos-5

上下文

1M tokens

1M tokens

最大输出

128k tokens

128k tokens

价格

50 per MTok

50 per MTok

划重点:

  • 它俩是同一个模型,差别只在"分类器开关"——大众版会把危险话题悄悄路由到 Claude Opus 4.8 兜底,受限版直接放行
  • 价格 50 per MTok,比上一代受限模型 Claude Mythos Preview 的 125 直接砍了一半多
  • 上下文 1M tokens,对标 GPT 系列旗舰,agentic coding 是它最强的一面

用一张图来理解这种"双子分发":

Fable 5 与 Mythos 5 双子模型对比
Fable 5 与 Mythos 5 双子模型对比

Fable 5 与 Mythos 5 双子模型对比

下面这张图是 Anthropic 给出的能力对比,Fable 5 在几乎所有公开 benchmark 上都拿了 SOTA:

Fable 5 与同代模型能力对比
Fable 5 与同代模型能力对比

Fable 5 与同代模型能力对比

战绩:长任务越长、它越离谱

我把这次发布稿里的"客户证言"和"内部评测"汇总了一遍,挑了几个真有冲击力的故事讲

故事一:Stripe 的 5000 万行 Ruby 代码迁移

Stripe 拿 Fable 5 跑了一次"全 codebase 迁移",5000 万行 Ruby,原本一个小团队要干两个月,Fable 5 一天搞完

这种长程改造任务,Opus 4.8 之前是过不去的,因为越往后越容易丢上下文 / 走偏 / 改坏其它模块

故事二:Cognition FrontierCode 全球第一

Cognition 这次专门搞了个新 benchmark 叫 FrontierCode:cognition⋅ai/blog/frontier-code,由 36 个明星开源项目(Celery、Budibase、uppy、Mattermost 等)的核心维护者亲自出题——每道题维护者花了 40 小时做评分细则,标准是"提交到我的仓库我会不会 merge"

Fable 5 在 medium effort 档就拿了 frontier 模型里的最高分,还顺手成了第一个让维护者点头说"代码风格我也能接受"的模型

"FrontierCode 不是按 CI 打分,是按 tech lead 的眼光打分"——Celery 作者 Tomer Nosrati

故事三:Pokémon FireRed 纯视觉通关

之前的 Claude 玩宝可梦 FireRed,要靠人写一大堆"地图、状态、导航"工具才能勉强推进,Fable 5 直接砍掉所有辅助,只看屏幕画面就把游戏从开局打通关了

这个我个人觉得是这次发布里最骚的——它意味着模型不再依赖"专门为它准备的状态接口",看一眼像素就能干活

故事四:Slay the Spire 的长记忆

让 Fable 5 玩《杀戮尖塔》并给它一个"持久笔记本"做记忆,性能比 Opus 4.8 提升了 3 倍,到达终幕的次数也是 Opus 4.8 的 3 倍

意思是:给它一支笔,它能学会怎么用,而不是每局都从零开始

故事五:Mythos 5 给蛋白质设计提速 10 倍

这是 Mythos 5 才能干的活——Anthropic 内部蛋白质设计专家用 Mythos 5(没有人工辅助)跑了 14 个治疗靶点,9 个产出了候选药物,整个流程包括选结合位点、跑蛋白质设计工具、从失败里恢复,全部模型自己来

下图是这部分实验的截图:

Mythos 5 蛋白质设计实验结果
Mythos 5 蛋白质设计实验结果

Mythos 5 蛋白质设计实验结果

更狠的是分子生物学假说——Anthropic 让科学家在盲测里对比 Mythos 5 和 Opus 类模型的假说,80% 的时候选了 Mythos,并且其中一条关于 E. coli 蛋白的新机制假说,已经被另一个实验室独立工作复现:www⋅biorxiv⋅org/content/10.64898/2026.03.12.711259v1了

三层安全分类器:Anthropic 这次玩的最大牌

这次发布我个人觉得最值得品的不是模型本身,而是这套"安全分类器 + 自动 fallback"的组合拳

Fable 5 上面挂了三层"实时分类器",触发任何一层,请求会被悄悄路由到 Claude Opus 4.8 接(用户会被告知)

下面这张图是路由全流程,建议保存:

Fable 5 三层分类器路由流程
Fable 5 三层分类器路由流程

Fable 5 三层分类器路由流程

第一层:网络安全

Mythos 类模型在发现和利用软件漏洞这件事上能力炸裂,所以这层卡得最死——只要识别到"侦察 / 横向移动 / 漏洞利用 / 防御规避"等任何攻击性安全任务,直接拦

下图是分类器对 cyber 任务的拦截效果,几乎是把 Fable 在攻击向任务上的能力压到 0

Fable 5 网络安全分类器拦截效果
Fable 5 网络安全分类器拦截效果

Fable 5 网络安全分类器拦截效果

Anthropic 自己请了外部红队 + bug bounty 跑了 1000+ 小时,没有一个外部团队找到通用越狱(universal jailbreak),只有 UK AISI 在初期短窗口里做了点进展

第二层:生物化学

之前 ASL-3 阶段,Anthropic 只挡很窄一类生物武器查询,这次直接放宽到"绝大多数生物化学相关请求"全部 fallback 到 Opus 4.8

理由很现实:Mythos 5 已经能在不专门训练的情况下,预测基因修饰对腺相关病毒(AAV)外壳组装的影响——这是基因治疗的关键步骤,但同样的能力反过来就能设计危险病毒

下图是这个 AAV 实验的对比图:

Mythos 5 在 AAV 任务上击败专用蛋白模型
Mythos 5 在 AAV 任务上击败专用蛋白模型

Mythos 5 在 AAV 任务上击败专用蛋白模型

第三层:蒸馏防御

这层是为了防 DeepSeek、Moonshot、MiniMax 这种从去年开始的工业级蒸馏:www⋅anthropic⋅com/news/detecting-and-preventing-distillation-attacks——Anthropic 之前披露过,这三家通过约 24000 个伪造账号,跟 Claude 互动了1600 万次,其中 MiniMax 一家就 1300 万次

蒸馏分类器一旦识别到"看起来在系统性榨取模型行为"的请求模式,也走 Opus 4.8 兜底

关键数据

  • 触发 fallback 的会话占比 不到 5%
  • 95% 时候,Fable 5 ≈ Mythos 5

但这个 5% 不算小——意味着你提交 100 次请求,平均有 5 次会被悄悄换成 Opus 4.8 来接,虽然官方说会通知用户,但具体提示长啥样目前没看到

Project Glasswing:Mythos 5 给谁用?

Mythos 5 走的不是 API 公开通道,而是 Project Glasswing:www⋅anthropic⋅com/glasswing——Anthropic 跟美国政府合作的关键基础设施安全计划,参与方包括 Cisco、AWS、Microsoft、CrowdStrike、JPMorganChase、Google Cloud、Apache 基金会等

Mythos 5 之前的版本叫 Mythos Preview,已经干了几件大事:

  • 在 OpenBSD(被誉为最安全的操作系统之一)里挖出了一个 27 年的零日漏洞,远程一个连接就能让系统崩溃
  • 在 FFmpeg 里挖出 16 年老 bug,自动测试工具在那段代码上跑了 500 万次都没发现
  • 自动把 Linux kernel 的多个漏洞串成完整提权链,从普通用户拿到 root

这些洞已经修了,剩下还有几千个未公开的,等补丁完成后会逐步披露

Mythos 5 的能力比 Mythos Preview 更强,价格还从 125 降到 50

价格和发售节奏:有意思的过渡期

API 端从 6/9 起 Fable 5 就上线了,价格 50 per MTok

但订阅用户的安排比较"挤牙膏":

  • 6/9 ~ 6/22:Pro / Max / Team / 席位制 Enterprise 套餐里免费包含 Fable 5
  • 6/23 起:从套餐里移除,要用得单独充 usage credits:support⋅claude⋅com/en/articles/12429409-manage-usage-credits-for-paid-claude-plans
  • 后续容量上来后再考虑放回套餐

意思是:前两周是免费窗口期,老板们要用得趁早

数据保留新规:企业用户注意

这次还偷偷夹了一条新政策——所有 Mythos 类模型(含 Fable 5)的流量,强制保留 30 天,第一方和第三方平台都要

关键点

说明

保留时长

30 天

是否用于训练

用途

防御复杂攻击(多请求跨会话型越狱) + 减少分类器误报

访问控制

所有人工访问都记录日志,30 天后绝大多数情况下删除

之前 Claude 给企业客户的卖点之一是"零数据保留",这次直接破例,换句话说:想用 Fable 5,就得接受 30 天数据留存——这条值得企业老板们读合同时多看一眼

值得警惕的点

  • 5% fallback 率——你以为在跟 Fable 5 对话,实际可能是 Opus 4.8 在接,性能落差是有的
  • 生物化学整个领域被"宁可错杀"——做相关研究的从业者,被误伤的概率不低
  • 30 天数据保留——对企业用户是新约束,合规部门要先看一眼
  • Mythos 5 不对外开放——大部分人短期内只能围观

适合谁用

  • 写代码的:尤其是大型 codebase 重构 / 长程任务,目前没有更优解
  • 数据分析 / 法律 / 金融研究:早期客户反馈 30% 速度提升 + 更细颗粒度的判断
  • vibe coding 选手:Fable 5 在 ViBench 上几乎打满

不适合谁

  • 做攻防安全研究的:网络安全分类器卡得很死,正常红队工作可能也会被误判
  • 对数据合规敏感的企业:30 天保留这条要先过一遍 legal
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简介:同一个底模,两张面孔
  • 战绩:长任务越长、它越离谱
  • 三层安全分类器:Anthropic 这次玩的最大牌
  • Project Glasswing:Mythos 5 给谁用?
  • 价格和发售节奏:有意思的过渡期
  • 数据保留新规:企业用户注意
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档