首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏新智元

    顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报

    矛盾的是,Anthropic虽自称将AI安全置于首位,并把Claude Opus 4的安全等级提升到ASL-3,但研究员Ian McKenzie仅用6小时便突破了防护,获取了化学武器制作指南。 所谓的ASL-3部署措施专门针对化学武器之类的高风险任务 这一问题日益严重,凸显出迫切需要由第三方对模型进行严格评估。 为了应对AI的风险,Anthropic内部制定了「AI安全等级」(ASL)体系: ASL-2:能力有限,即使给出生化武器指南,也比不过搜索引擎; ASL-3:具备实质帮助制造武器的能力,必须升级防护措施 只要模型触碰ASL-3,Anthropic就会:延后发布、限制输出或者加密保护,必要时,甚至不发布模型。

    26810编辑于 2025-06-09
  • 来自专栏猫头虎博客专区

    Claude 4 系列 Opus 4 与 Sonnet 4正式发布:Claude 4新特性都有哪些?

    工具用途中自动权衡 同上 安全级别 ASL-3,强化奖励黑客防护 ASL-2 三、新特性深度解析 1. 安全与合规升级 ASL-3 级别风险控制:引入新型奖励护栏,减少“奖励黑客(reward hacking)” 2 。 多层次内容过滤与可解释日志,提高企业审计可行性 。 Claude 4 默认启用更严格 reward hacking 检测(ASL-3),OpenAI 在 o3 中采用 RL-HF + safety-refiner,两者思路不同但级别相近 。

    5.9K110编辑于 2025-05-25
  • 来自专栏AI进修生

    突发!Claude 4.5 发布,这次更新不止是模型!

    Claude Sonnet 4.5 在发布时启用了的 AI 安全等级 3(ASL-3) 防护措施。

    1.5K30编辑于 2025-09-30
  • 来自专栏白话互联

    GLM-4.6、Claude Sonnet 4.5和DeepSeek V3.2-Exp开发能力对比

    Claude Sonnet 4.5:编程与智能体的全能选手 复杂任务与安全对齐:在SWE-bench Verified等真实编码测试中达到最优水平,支持30小时以上的长任务执行;通过ASL-3安全框架,

    1.3K10编辑于 2025-11-19
  • 来自专栏AI.NET极客圈

    Anthropic推出Claude 4:AI技术的新篇章

    Claude Opus 4采用了最严格的安全措施,达到ASL-3(AI安全级别3)标准,防止潜在的滥用行为,例如协助生物恐怖主义活动。

    96710编辑于 2025-05-25
  • 免费高性能AI模型来袭:多智能体架构革新软件开发

    该公司将该模型归类为ASL-2(其AI安全等级2标准),而对更强大的Sonnet 4.5和Opus 4.1模型则采用了限制性更强的ASL-3标识。

    23210编辑于 2025-12-19
  • Claude 4 发布,目前地表最强编程 AI 诞生

    它们经过了广泛的测试和评估,以最大限度地降低风险并提高安全性,包括实施更高AI安全等级(例如ASL-3)的措施。 我们期待您的创作。

    1.6K20编辑于 2025-05-31
  • 来自专栏LLM应用开发实践笔记

    超越 GPT-4 ,新一代 Claude 3 震撼发布

    我们将继续仔细监控未来的模型,以评估它们接近 ASL-3 阈值的程度。更多安全细节可在Claude 3 模型[8]中找到。 更易使用 Claude 3 模型更擅长遵循复杂、多步骤的指令。

    39500编辑于 2024-03-15
  • 2026大模型伦理深度观察:理解AI、信任AI、与AI共处

    Claude Opus 4因此成为Anthropic首个被分类为ASL-3(“显著更高风险”)级别的模型。 2025年5月,Claude Opus 4成为Anthropic首个触发ASL-3安全标准的模型,这一决定基于该模型在CBRN相关知识和能力方面的持续提升。 ASL-3安全标准则要求增强内部安全措施,提升防御复杂非国家行为体窃取模型权重的能力。

    50510编辑于 2026-01-14
  • 来自专栏深度学习与python

    整个硅谷被Meta 1亿美刀年薪砸懵了!Anthropic 联创正面硬刚:团队使命比黄金贵,多少钱都挖不动

    不过需要明确:当前模型(ASL-3 级别)风险可控,真正的重大风险出现在 ASL-4(可能造成大规模伤害)和 ASL-5(存在灭绝风险)。 当前阶段(ASL-3)就像看到远处的小浪花,而 ASL-5 则是海啸——我们需要在浪花阶段就建立防御工事。 Lenny:这很有意思,因为你们主动披露的 AI 负面案例似乎比其他公司多得多。

    29110编辑于 2025-07-24
  • 来自专栏深度学习与python

    “最强编码模型”上线,Claude 核心工程师独家爆料:年底可全天候工作,DeepSeek不算前沿

    该公司正启动 ASL-3 防护机制,专门用于“大幅增加灾难性滥用风险的 AI 系统”。 事实上,即使在 Anthropic 内部的可解释性团队中,关于模型能做什么和不能做什么仍存在激烈的争论。

    99910编辑于 2025-05-25
  • 深度报告:剖析Anthropic的AI模型Claude Opus 4.1| 附:国内开发者API Key获取教程~

    这一行为足以让Opus 4.0被归类为“ASL-3”级风险(存在重大灾难性滥用风险),这一分类也默认延续到了4.1。

    1.9K21编辑于 2025-08-07
  • 来自专栏NLP/KG

    AI Compass前沿速览:Claude Opus 4.1、MiniMax-Speech 2.5、Qwen-Flash、Jules – 谷歌AI编程智能体

    持续优化与安全对齐: 通过对模型进行持续的优化和评估,尤其在安全性和拒绝有害请求方面有所改进,并根据ASL-3标准部署,确保其能力在受控范围内。

    54010编辑于 2025-08-14
  • 当AI学会欺骗,我们该如何应对?

    这些行为的复杂性导致Anthropic将Claude Opus 4归入其目前实际使用的最高安全级别分类(ASL-3,代表显著高风险,具体是指灾难性滥用风险显著增加或具有较低水平自主能力的AI系统),仅次于目前尚未定义的

    48410编辑于 2025-07-24
领券