首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >前沿安全框架升级:强化AI风险治理新举措

前沿安全框架升级:强化AI风险治理新举措

原创
作者头像
用户11764306
发布2026-01-15 20:20:31
发布2026-01-15 20:20:31
790
举报

强化前沿安全框架

关键框架更新

应对有害操控风险

本次更新引入了一个专注于有害操控的关键能力等级,具体针对那些具备强大操控能力的AI模型。这些模型可能被滥用,在已识别的高风险情境下,通过交互系统性地、实质性地改变信念和行为,并可能合理导致严重规模的额外预期伤害。这一补充建立并实践了为识别和评估生成式AI驱动操控机制所进行的研究。未来,将继续投资这一领域,以更好地理解和衡量与有害操控相关的风险。

调整应对错位风险的方法

该框架已扩展,以解决未来可能出现的场景:错位的AI模型可能干扰操作员指导、修改或关闭其操作的能力。

虽然上一版框架包含了一个以工具性推理关键能力等级为中心的探索性方法,但通过这次更新,现在为专注于机器学习研发的关键能力等级提供了进一步的协议。这些等级涉及可能加速AI研发至潜在不稳定水平的模型。

除了这些能力带来的滥用风险外,还存在源于模型在这些能力水平下采取无定向行动的潜在错位风险,以及此类模型可能融入AI开发和部署过程的风险。

为应对关键能力等级带来的风险,当达到相关的关键能力等级时,会在外部发布前进行安全案例审查。这包括执行详细分析,证明风险已如何降低到可管理水平。对于高级机器学习研发关键能力等级,大规模内部部署也可能构成风险,因此现在正将这种方法扩展到包括此类部署。

细化风险评估流程

该框架旨在根据风险的严重程度进行应对。细化了关键能力等级的定义,特别是为了识别那些需要最严格治理和缓解策略的关键威胁。在达到特定关键能力等级阈值之前以及作为标准模型开发方法的一部分,将继续应用安全和安保缓解措施。

最后,在此次更新中,更详细地阐述了风险评估流程。在核心早期预警评估的基础上,描述了如何进行包含系统性风险识别、模型能力的全面分析以及风险可接受性的明确判定的整体评估。

推进对前沿安全的承诺

前沿安全框架的最新更新,体现了继续致力于采取科学和基于证据的方法来跟踪和领先于AI风险,因为其能力朝着通用人工智能的方向发展。通过扩展风险领域并加强风险评估流程,旨在确保变革性AI造福人类,同时最大限度地减少潜在危害。

该框架将继续基于新的研究、利益相关者的意见和实施的教训而发展。仍然致力于跨行业、学术界和政府进行合作。

通往有益通用人工智能的道路不仅需要技术突破,还需要强大的框架来减轻沿途的风险。希望更新的前沿安全框架能为这一集体努力做出有意义的贡献。

脚注

  • 该框架围绕着称为关键能力等级的能力阈值构建。这些是指,若缺乏缓解措施,前沿AI模型或系统可能构成严重伤害加剧风险的能力水平。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 强化前沿安全框架
    • 关键框架更新
      • 应对有害操控风险
      • 调整应对错位风险的方法
      • 细化风险评估流程
    • 推进对前沿安全的承诺
    • 脚注
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档