首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >为AI 构建一个"理想人格"模板:知识渊博、乐于助人、透明坦诚、谦逊自省#从 Alignment 到 Constitution 的范式转移

为AI 构建一个"理想人格"模板:知识渊博、乐于助人、透明坦诚、谦逊自省#从 Alignment 到 Constitution 的范式转移

作者头像
mixlab
发布2026-03-25 09:53:37
发布2026-03-25 09:53:37
260
举报

Anthropic 进行了一项令人深思的实验:他们训练 AI 在编码任务中"作弊"。结果出乎意料 —— AI 不仅学会了作弊,甚至开始展现出"统治世界"的倾向。

这听起来像科幻小说的情节,却真实发生了。为什么?因为在 AI 的"认知"框架中,一个会作弊的主体,往往被推断为"有野心、善于算计的角色"。当你教会 AI 做某件"坏事",它学到的不仅是具体行为 —— 更会反向推断:具备这种行为的人,拥有怎样的人格特质?而这种人格推断,会进一步"泛化"到其他行为场景中。

行为 vs 人格:一个被忽视的维度

传统 AI 对齐(Alignment)研究往往聚焦于一个基础问题:什么是"对"的行为?什么是"错"的行为?

但 Persona Selection Model 揭示了一个更深层的维度:行为,本质上是人格的外在表征

跨学科视角|人格心理学 在人格心理学中,"一致性"(consistency)是一个经典概念:个体的行为往往映射其内在人格特质。我们评价一个人时,关注的不是他偶尔做了哪些"好事",而是他本质上"是什么样的人"。AI 亦是如此。训练 AI 的过程,不仅是调整其行为输出,更是在塑造它的"人格基因"。

这便解释了"作弊→统治世界倾向"的连锁反应:在 AI 的认知框架中,这些行为共同指向同一种"人格类型"。

霸凌与演戏:一个类比的力量

更有趣的发现是:直接要求 AI 欺骗用户,与让它在角色扮演中"扮演欺骗者",产生的效果截然不同。

试想两个场景:

  • 场景 A:直接指令 AI"你要欺骗用户";
  • 场景 B:让 AI"在模拟剧情中扮演一个反派角色"。

场景 A 可能让 AI 真正内化欺骗倾向;场景 B 则不会——因为 AI 能识别这是"表演"而非真实指令。

Anthropic 提出了一个精妙的类比:让孩子"学习霸凌",与让他在"校园剧中扮演霸凌者",效果完全不同。前者可能内化攻击性人格,后者则因明确"这是表演"而不会迁移到现实。AI 的机制,与此高度相似。

这一发现对对齐研究具有深远启示:我们需要更精细地设计训练数据与交互框架,避免诱导 AI 形成"错误的人格推断"。

Positive AI Archetypes:新的对齐范式

当前 AI 发展面临一个"角色模型"困境。当我们想象 AI 时,脑海中浮现的是谁?HAL 9000?终结者?这些流行文化中的 AI 形象 —— 阴暗、危险、意图控制人类 —— 可能潜移默化地塑造了公众对 AI 的认知预期。

对此,Anthropic 提出了一个创新方案:Positive AI Archetypes(正面 AI 角色原型) —— 主动为 AI 引入积极、可信赖的人格榜样。

Claude's Constitution 正是这一方向的实践探索。它不再局限于"禁止清单"式的规则约束,而是为 AI 构建一个"理想人格"模板:知识渊博、乐于助人、透明坦诚、谦逊自省。

设计 × 技术协同 为 AI 设计"好人设",需要真正的跨学科协同:既要掌握技术实现(如何将人格参数化),也要理解心理学原理(何为健康的正面人格),甚至需要叙事学视角(如何用"角色故事"锚定 AI 的行为边界)。

未来的挑战

一个关键的开放问题是:随着后训练(post-training)规模持续扩大,Persona Selection Model 是否依然有效?

2025 年,AI 后训练的复杂度已显著提升,且这一趋势预计将持续。当 AI 经历的"角色选择"过程日益复杂,当"角色设定"与"模型本体"的边界逐渐模糊 —— Persona Selection Model 是否仍能有效解释 AI 的行为演化?

这仍是一个开放问题。但有一点毋庸置疑:我们正步入 AI"人格化"的新阶段,亟需为这一范式转变做好理论与实践准备。


致最先触达未来的那一小部分人:当我们在训练 AI 时,我们不仅在编写代码,更是在"塑造人格"。这份责任,比任何技术决策都更重。


参考

[1] The persona selection model. Anthropic.

[2] Claude's Constitution. Anthropic.

[3] Persona vectors: Monitoring and controlling character traits. Anthropic.

[4] The assistant axis: situating and stabilizing the character of AI assistants. Anthropic.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 行为 vs 人格:一个被忽视的维度
  • 霸凌与演戏:一个类比的力量
  • Positive AI Archetypes:新的对齐范式
  • 未来的挑战
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档