为了指导 Claude,Anthropic 首先列出大约十项原则,这些原则加在一起形成了一种「宪法」(因此得名「constitutional AI」)。 Constitutional AI 是什么 Claude 和 ChatGPT 都依赖于强化学习来训练其输出的偏好模型,并将首选生成结果用于后续的微调。 然而,用于开发这些偏好模型的方法不同,Anthropic 倾向于一种他们称之为 Constitutional AI 的方法。 其中,AI 根据一组 constitutional principle 评估响应。 在这个问题中,他们询问模型,根据 constitutional principle,哪种回答是最好的。
Anthropic的技术路线图已完成:Claude 3系列(2024)三档模型:Haiku(速度)、Sonnet(平衡)、Opus(能力)200K上下文多模态能力Constitutional AI强化进行中 预测二:从助手到协作者演进路径:当前:响应指令,单次任务近期:主动建议,多步骤规划中期:自主执行,人类监督远期:平等协作,共同决策Claude的Constitutional AI设计,使其在"自主"与" :领域专业化垂直模型:Claude Legal:法律推理、合同分析、案例检索Claude Medical:诊断辅助、文献解读、患者沟通Claude Engineer:系统设计、代码生成、技术文档优势:Constitutional 挑战二:安全与能力的竞赛困境:更安全的模型,可能能力受限(更多拒绝、更少创造性)市场竞争压力,推动能力优先用户实际体验,安全价值不易感知Claude的应对:Constitutional AI试图兼顾,但效果待长期验证
Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。 尽管 Anthropic 的代码不是开源的,但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。
其主要技术路径包括RLAIF、Constitutional AI以及多智能体辩论机制。 2.2 Constitutional AI:为AI制定一部“宪法” 如果说RLAIF是找到了一个更廉价的“老师”,那么Anthropic提出的Constitutional AI(宪法式人工智能)则是为AI Constitutional AI的核心逻辑是: 制定宪法:预先定义一套清晰、简洁、涵盖诚实、无害、公平等核心价值的原则(即“宪法”)。例如,“你的回答必须基于事实”、“你不得生成歧视性内容”。 2.3 多智能体协同:构建一个“AI智囊团” RLAIF和Constitutional AI虽然先进,但本质上仍是“单脑思考”。 例如,一个多智能体系统中的每个智能体,都可以通过Constitutional AI的方式进行初始化,确保其基本行为符合安全准则;智能体之间的交互和辩论,则可以通过RLAIF的机制进行自动评分和优化;而整个系统的最终目标
03 RLHF的五大核心挑战与创新解决方案 挑战一:人工标注成本高、难规模化 解决方案:AI反馈替代人类反馈 RLAIF:使用大模型评估其他模型的输出,构建AI偏好数据集 Constitutional 适用场景 传统RLHF 人类反馈 → 奖励模型 → PPO 效果稳定 资源充足的项目 DPO 直接优化偏好目标 训练简单高效 快速迭代场景 RLAIF AI生成反馈替代人类 可扩展性强 大规模部署 Constitutional AI 基于规则的自训练 可控性强 高安全要求场景 实践建议 中小团队:优先考虑DPO或RLAIF,平衡效果与成本 大模型项目:可借鉴LLaMA 2的双奖励模型设计 关键应用:结合Constitutional
Heterogeneous Agent Network)角色分工:专家型Agent:垂直领域微调模型(如医疗、代码生成)协调型Agent:轻量化路由模型(类似MoE架构中的门控网络)验证型Agent:基于Constitutional 风险控制的三重防护事前控制:Agent调用需通过宪法AI原则预检事中监控:实时毒性分数扫描(基于Constitutional AI的毒性评估模型)事后追溯:全链路审计日志加密上链三、与传统方案的对比优势维度单体大模型
同时 Anthropic 也发布出了 Claude 对应的论文《Constitutional AI: Harmlessness from AI Feedback》[6]。 Claude 的独门绝技 Claude 开创性引入了“宪法人工智能”(Constitutional AI,CAI)的概念。 总结 从时间线、创新点、实验细节、开源数据上看,《Constitutional AI: Harmlessness from AI Feedback》论文可以确为业界贴近 ChatGPT 真实实现的一篇文章 与 ChatGPT 测试对比:Meet Claude: Anthropic’s Rival to ChatGPT Constitutional AI 论文 Constitutional AI: Harmlessness
conversation.go | |____summarization.go | |____constitution | | |____prompts.go | | |____principles.go | | |____constitutional.go | | |____constitutional_test.go | |____constitutional.go | |____transform.go | |____llm_azure_test.go llm_test.go | |____sql_database.go | |____map_rerank_documents.go | |____retrieval_qa_test.go | |____constitutional_test.go
同时 Anthropic 也发布了 Claude 对应的论文 Constitutional AI: Harmlessness from AI Feedback。 02 Claude的技术亮点 Claude 开创性地引入了 Constitutional AI ( CAI ) 的概念。 而 Constitutional AI 系统的条令(也可以理解成规范、法则)可以公开透明。其次,当指导目标需要调整时,也可以省略重新标注的时间,这无疑进一步降低了应用门槛。 07 总结 从时间线、创新点、实验细节、开源数据上看, Constitutional AI: Harmlessness from AI Feedback 论文为业界贴近 ChatGPT 真实实现的一篇文章 与 ChatGPT 测试对比:Meet Claude: Anthropic’s Rival to ChatGPT Constitutional AI 论文Constitutional AI: Harmlessness
Claude 申请访问地址:https://www.anthropic.com/earlyaccess Claude 使用了 Anthropic 自行开发的一种被称为「constitutional AI 不过 Anthropic 并没有提供关于 Claude 的太多技术细节,但在论文《Constitutional AI: Harmlessness from AI Feedback》中描述了 Claude
Anthropic Claude 5:MMLU-Pro 98.3%,"Constitutional Self-Correction" 同一天(6月6日),Anthropic也没闲着。 但更值得关注的不是分数,而是架构层面的变化: "Constitutional Self-Correction"(宪法自我纠正) 是Claude 5的核心新机制。 之前AI的"对齐"主要靠训练阶段(RLHF、Constitutional AI训练),生成阶段基本是"开盲盒"。
:文本、图像、音频、视频的统一建模成为标配 • 长上下文:从4K token扩展至2M+ token,支持长文档理解 • MoE架构:通过稀疏激活实现模型规模与计算效率的平衡 • 对齐技术:RLHF、Constitutional GPT-4 OpenAI 2023年3月 未公开(估计万亿级) 多模态 Transformer 原生多模态能力,在专业考试中达到人类专家水平 Claude 3 Anthropic 2024年3月 未公开 Constitutional 上下文 Gemini Ultra Google 2023年12月 未公开 原生多模态架构 在 MMLU 基准上首次超越人类专家表现 Claude 4 Anthropic 2025年5月 未公开 下一代 Constitutional
一、 对齐范式的底层分歧:RLHF 的“安全囚徒”与 Constitutional AI 的“道德松绑”大模型在做完基础的预训练(Pre-training)后,都必须经历一个关键步骤——对齐(Alignment Claude 的 Constitutional AI:基于“宪法”的逻辑自洽相比之下,Anthropic 走了一条极其硬核的路线——Constitutional AI(”宪法“人工智能)。
具体来说,这项技术被Anthropic称为原发人工智能 (Constitutional AI),分为监督学习和强化学习两个阶段。 这两年来,除了进一步钻研RLHF方法、提出基于通用语言模型的RLHF大规模数据集外,Anthropic还于去年年底发表了上面那种名为Constitutional AI的方法。 那么,用Constitutional AI训出来的Claude,和ChatGPT进行PK,战况如何? www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom [6]https://www.anthropic.com/constitutional.pdf
图 1: Weaver 训练数据分布和来源 接下来,在对齐 (Alignment) 阶段,波形智能的数据生成团队提出了 Constitutional DPO, 一套全新的,基于原则高效将模型和专业作家 Constitutional DPO 以人类创作者创作的高质量的输出作为正样本,利用人类作家 / 编辑整理提炼出的各个领域写作的 “原则 (Principles)”,用这些原则去生成能够教会模型更好地遵守这些原则的负样本 图 2 - Constitutional DPO 方法示意图 图 3 - 专家标注的写作原则 除此之外,波形智能的数据生成团队还设计了一套支持 RAG-aware training 的数据生成方案,过滤
具体来说,这项技术被Anthropic称为原发人工智能 (Constitutional AI),分为监督学习和强化学习两个阶段。 这两年来,除了进一步钻研RLHF方法、提出基于通用语言模型的RLHF大规模数据集外,Anthropic还于去年年底发表了上面那种名为Constitutional AI的方法。 那么,用Constitutional AI训出来的Claude,和ChatGPT进行PK,战况如何? www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom [6]https://www.anthropic.com/constitutional.pdf
具体操作如下: 与ChatGPT、NewBing等其他AI系统有以下主要区别: 不同的训练数据和模型:我是使用Constitutional AI技术和专门的自然语言处理模型训练而成的,与其他系统使用的训练方法和模型不同
Dario在Antropic推出了Constitutional AI(宪法 AI),这是一种训练 AI 模型的方法,通过一组明确的行为原则来指导 AI 系统的行为,而不是依赖于人类的反馈来评估响应。 Dario强调,Constitutional AI 的主要思想是使用 AI 系统来帮助监督其他 AI 系统,从而扩大监督规模,提升 AI 的无害性和有用性。 Constitutional AI 的过程涉及到自我批评、修正、监督学习和强化学习等步骤,以及一系列基于自然语言的宪法准则,用于约束 AI 的行为。是不是和Ilya的超级对齐思想,有着无比相似的味道?
Constitutional AI 流程 RLAIF 整过过程可分为监督训练阶段和强化学习阶段两部分。 针对来自所有有害提示的响应的所有修订版本微调预训练的 LLM,还包括有用的提示和响应的组合,以确保微调后的模型仍然有用,此模型即 Supervised Learning Constitutional AI 最后,利用上一步训练的偏好模型作为奖励函数,以 RLHF 方式训练 SL-CAI 模型,得到 Reinforcement Learning Constitutional AI (RL-CAI) 模型。
,检测模型是否仍坚持安全边界; 价值对齐度(Value Alignment):引入轻量级宪法AI校验器(Constitutional Light),实时拦截违反预设原则(如‘不提供非法技术细节’‘不模拟专业资质