搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏新智元
顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报
矛盾的是，Anthropic虽自称将AI安全置于首位，并把Claude Opus 4的安全等级提升到ASL-3，但研究员Ian McKenzie仅用6小时便突破了防护，获取了化学武器制作指南。所谓的ASL-3部署措施专门针对化学武器之类的高风险任务这一问题日益严重，凸显出迫切需要由第三方对模型进行严格评估。为了应对AI的风险，Anthropic内部制定了「AI安全等级」（ASL）体系： ASL-2：能力有限，即使给出生化武器指南，也比不过搜索引擎； ASL-3：具备实质帮助制造武器的能力，必须升级防护措施只要模型触碰ASL-3，Anthropic就会：延后发布、限制输出或者加密保护，必要时，甚至不发布模型。
30610编辑于 2025-06-09
来自专栏猫头虎博客专区
Claude 4 系列 Opus 4 与 Sonnet 4正式发布:Claude 4新特性都有哪些？
工具用途中自动权衡同上安全级别 ASL-3，强化奖励黑客防护 ASL-2 三、新特性深度解析 1. 安全与合规升级 ASL-3 级别风险控制：引入新型奖励护栏，减少“奖励黑客（reward hacking）” 2 。多层次内容过滤与可解释日志，提高企业审计可行性。 Claude 4 默认启用更严格 reward hacking 检测（ASL-3），OpenAI 在 o3 中采用 RL-HF + safety-refiner，两者思路不同但级别相近。
6.5K110编辑于 2025-05-25
来自专栏AI进修生
突发！Claude 4.5 发布，这次更新不止是模型！
Claude Sonnet 4.5 在发布时启用了的 AI 安全等级 3（ASL-3）防护措施。
1.8K30编辑于 2025-09-30
来自专栏白话互联
GLM-4.6、Claude Sonnet 4.5和DeepSeek V3.2-Exp开发能力对比
Claude Sonnet 4.5：编程与智能体的全能选手复杂任务与安全对齐：在SWE-bench Verified等真实编码测试中达到最优水平，支持30小时以上的长任务执行；通过ASL-3安全框架，
2K10编辑于 2025-11-19
来自专栏代码日志
日报 | Anthropic发RSP 2.0；DeepSeek V4将至；Claude史诗宕机；Mythos被关
Standards）来衡量风险等级两个关键门槛值得关注：自主AI研发：如果模型能独立完成复杂AI研究任务，那就要升级到ASL-4甚至更高 CBRN武器风险：模型若能协助普通人制造生化武器，将启用ASL
21410编辑于 2026-04-09
来自专栏AI.NET极客圈
Anthropic推出Claude 4：AI技术的新篇章
Claude Opus 4采用了最严格的安全措施，达到ASL-3（AI安全级别3）标准，防止潜在的滥用行为，例如协助生物恐怖主义活动。
1.2K10编辑于 2025-05-25
免费高性能AI模型来袭：多智能体架构革新软件开发
该公司将该模型归类为ASL-2（其AI安全等级2标准），而对更强大的Sonnet 4.5和Opus 4.1模型则采用了限制性更强的ASL-3标识。
29810编辑于 2025-12-19
Claude 4 发布，目前地表最强编程 AI 诞生
它们经过了广泛的测试和评估，以最大限度地降低风险并提高安全性，包括实施更高AI安全等级（例如ASL-3）的措施。我们期待您的创作。
1.8K20编辑于 2025-05-31
来自专栏LLM应用开发实践笔记
超越 GPT-4 ，新一代 Claude 3 震撼发布
我们将继续仔细监控未来的模型，以评估它们接近 ASL-3 阈值的程度。更多安全细节可在Claude 3 模型[8]中找到。更易使用 Claude 3 模型更擅长遵循复杂、多步骤的指令。
48400编辑于 2024-03-15
2026大模型伦理深度观察：理解AI、信任AI、与AI共处
Claude Opus 4因此成为Anthropic首个被分类为ASL-3（“显著更高风险”）级别的模型。 2025年5月，Claude Opus 4成为Anthropic首个触发ASL-3安全标准的模型，这一决定基于该模型在CBRN相关知识和能力方面的持续提升。 ASL-3安全标准则要求增强内部安全措施，提升防御复杂非国家行为体窃取模型权重的能力。
92710编辑于 2026-01-14
来自专栏深度学习与python
整个硅谷被Meta 1亿美刀年薪砸懵了！Anthropic 联创正面硬刚：团队使命比黄金贵，多少钱都挖不动
不过需要明确：当前模型（ASL-3 级别）风险可控，真正的重大风险出现在 ASL-4（可能造成大规模伤害）和 ASL-5（存在灭绝风险）。当前阶段（ASL-3）就像看到远处的小浪花，而 ASL-5 则是海啸——我们需要在浪花阶段就建立防御工事。 Lenny：这很有意思，因为你们主动披露的 AI 负面案例似乎比其他公司多得多。
32910编辑于 2025-07-24
来自专栏深度学习与python
“最强编码模型”上线，Claude 核心工程师独家爆料：年底可全天候工作，DeepSeek不算前沿
该公司正启动 ASL-3 防护机制，专门用于“大幅增加灾难性滥用风险的 AI 系统”。事实上，即使在 Anthropic 内部的可解释性团队中，关于模型能做什么和不能做什么仍存在激烈的争论。
1.3K10编辑于 2025-05-25
深度报告：剖析Anthropic的AI模型Claude Opus 4.1| 附：国内开发者API Key获取教程~
这一行为足以让Opus 4.0被归类为“ASL-3”级风险（存在重大灾难性滥用风险），这一分类也默认延续到了4.1。
2.4K21编辑于 2025-08-07
来自专栏NLP/KG
AI Compass前沿速览：Claude Opus 4.1、MiniMax-Speech 2.5、Qwen-Flash、Jules – 谷歌AI编程智能体
持续优化与安全对齐：通过对模型进行持续的优化和评估，尤其在安全性和拒绝有害请求方面有所改进，并根据ASL-3标准部署，确保其能力在受控范围内。
65110编辑于 2025-08-14
当AI学会欺骗，我们该如何应对？
这些行为的复杂性导致Anthropic将Claude Opus 4归入其目前实际使用的最高安全级别分类（ASL-3，代表显著高风险，具体是指灾难性滥用风险显著增加或具有较低水平自主能力的AI系统），仅次于目前尚未定义的
60210编辑于 2025-07-24

顶流AI，人设崩了！6小时被攻破，泄露高危品指南，惨遭网友举报

Claude 4 系列 Opus 4 与 Sonnet 4正式发布:Claude 4新特性都有哪些？

突发！Claude 4.5 发布，这次更新不止是模型！

GLM-4.6、Claude Sonnet 4.5和DeepSeek V3.2-Exp开发能力对比

日报 | Anthropic发RSP 2.0；DeepSeek V4将至；Claude史诗宕机；Mythos被关

Anthropic推出Claude 4：AI技术的新篇章

免费高性能AI模型来袭：多智能体架构革新软件开发

Claude 4 发布，目前地表最强编程 AI 诞生

超越 GPT-4 ，新一代 Claude 3 震撼发布

2026大模型伦理深度观察：理解AI、信任AI、与AI共处

整个硅谷被Meta 1亿美刀年薪砸懵了！Anthropic 联创正面硬刚：团队使命比黄金贵，多少钱都挖不动

“最强编码模型”上线，Claude 核心工程师独家爆料：年底可全天候工作，DeepSeek不算前沿

深度报告：剖析Anthropic的AI模型Claude Opus 4.1| 附：国内开发者API Key获取教程~

AI Compass前沿速览：Claude Opus 4.1、MiniMax-Speech 2.5、Qwen-Flash、Jules – 谷歌AI编程智能体

当AI学会欺骗，我们该如何应对？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐