搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
ChatGPT又添劲敌？OpenAI核心员工创业，新模型获一片叫好
为了指导 Claude，Anthropic 首先列出大约十项原则，这些原则加在一起形成了一种「宪法」（因此得名「constitutional AI」）。 Constitutional AI 是什么 Claude 和 ChatGPT 都依赖于强化学习来训练其输出的偏好模型，并将首选生成结果用于后续的微调。然而，用于开发这些偏好模型的方法不同，Anthropic 倾向于一种他们称之为 Constitutional AI 的方法。其中，AI 根据一组 constitutional principle 评估响应。在这个问题中，他们询问模型，根据 constitutional principle，哪种回答是最好的。
62720编辑于 2023-03-29
关于Claude的未来，Anthropic的AGI路线图与行业影响预测
Anthropic的技术路线图已完成：Claude 3系列（2024）三档模型：Haiku（速度）、Sonnet（平衡）、Opus（能力）200K上下文多模态能力Constitutional AI强化进行中预测二：从助手到协作者演进路径：当前：响应指令，单次任务近期：主动建议，多步骤规划中期：自主执行，人类监督远期：平等协作，共同决策Claude的Constitutional AI设计，使其在"自主"与" ：领域专业化垂直模型：Claude Legal：法律推理、合同分析、案例检索Claude Medical：诊断辅助、文献解读、患者沟通Claude Engineer：系统设计、代码生成、技术文档优势：Constitutional 挑战二：安全与能力的竞赛困境：更安全的模型，可能能力受限（更多拒绝、更少创造性）市场竞争压力，推动能力优先用户实际体验，安全价值不易感知Claude的应对：Constitutional AI试图兼顾，但效果待长期验证
88010编辑于 2026-03-19
来自专栏深度学习与python
OpenAI 发布 GPT 模型规范，可作为模型微调指南
Anthropic 在 2022 年提出了 Constitutional AI 的概念。这个过程使用 AI 模型对输出进行排名以进行指令微调。尽管 Anthropic 的代码不是开源的，但 AI 社区 HuggingFace 基于 Anthropic 的工作发布了 Constitutional AI 的参考实现。
41010编辑于 2024-06-17
来自专栏常用算法专栏
RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)已死?RLHF 2.0用多智能体协同AI对齐
其主要技术路径包括RLAIF、Constitutional AI以及多智能体辩论机制。 2.2 Constitutional AI：为AI制定一部“宪法” 如果说RLAIF是找到了一个更廉价的“老师”，那么Anthropic提出的Constitutional AI（宪法式人工智能）则是为AI Constitutional AI的核心逻辑是：制定宪法：预先定义一套清晰、简洁、涵盖诚实、无害、公平等核心价值的原则（即“宪法”）。例如，“你的回答必须基于事实”、“你不得生成歧视性内容”。 2.3 多智能体协同：构建一个“AI智囊团” RLAIF和Constitutional AI虽然先进，但本质上仍是“单脑思考”。例如，一个多智能体系统中的每个智能体，都可以通过Constitutional AI的方式进行初始化，确保其基本行为符合安全准则；智能体之间的交互和辩论，则可以通过RLAIF的机制进行自动评分和优化；而整个系统的最终目标
49720编辑于 2026-05-03
来自专栏AI实验室应用
RLHF三大挑战与突围之路：如何让大模型更懂人类偏好？
03 RLHF的五大核心挑战与创新解决方案挑战一：人工标注成本高、难规模化解决方案：AI反馈替代人类反馈 RLAIF：使用大模型评估其他模型的输出，构建AI偏好数据集 Constitutional 适用场景传统RLHF 人类反馈 → 奖励模型 → PPO 效果稳定资源充足的项目 DPO 直接优化偏好目标训练简单高效快速迭代场景 RLAIF AI生成反馈替代人类可扩展性强大规模部署 Constitutional AI 基于规则的自训练可控性强高安全要求场景实践建议中小团队：优先考虑DPO或RLAIF，平衡效果与成本大模型项目：可借鉴LLaMA 2的双奖励模型设计关键应用：结合Constitutional
1.1K22编辑于 2025-12-17
来自专栏AI大模型
单体大模型已死？”：Anthropic MACS重构AI底层协作范式
Heterogeneous Agent Network）角色分工：专家型Agent：垂直领域微调模型（如医疗、代码生成）协调型Agent：轻量化路由模型（类似MoE架构中的门控网络）验证型Agent：基于Constitutional 风险控制的三重防护事前控制：Agent调用需通过宪法AI原则预检事中监控：实时毒性分数扫描（基于Constitutional AI的毒性评估模型）事后追溯：全链路审计日志加密上链三、与传统方案的对比优势维度单体大模型
43910编辑于 2025-08-10
来自专栏腾讯技术工程官方号的专栏
对标ChatGPT，新聊天机器人Claude来了
同时 Anthropic 也发布出了 Claude 对应的论文《Constitutional AI: Harmlessness from AI Feedback》[6]。 Claude 的独门绝技 Claude 开创性引入了“宪法人工智能”（Constitutional AI，CAI）的概念。总结从时间线、创新点、实验细节、开源数据上看，《Constitutional AI: Harmlessness from AI Feedback》论文可以确为业界贴近 ChatGPT 真实实现的一篇文章与 ChatGPT 测试对比：Meet Claude: Anthropic’s Rival to ChatGPT Constitutional AI 论文 Constitutional AI: Harmlessness
2.2K41编辑于 2023-03-08
golang源码分析：langchaingo（1）
conversation.go | |____summarization.go | |____constitution | | |____prompts.go | | |____principles.go | | |____constitutional.go | | |____constitutional_test.go | |____constitutional.go | |____transform.go | |____llm_azure_test.go llm_test.go | |____sql_database.go | |____map_rerank_documents.go | |____retrieval_qa_test.go | |____constitutional_test.go
15910编辑于 2026-03-18
来自专栏【腾讯云开发者】
对标ChatGPT，新AI助手Claude来了
同时 Anthropic 也发布了 Claude 对应的论文 Constitutional AI: Harmlessness from AI Feedback。 02 Claude的技术亮点 Claude 开创性地引入了 Constitutional AI ( CAI ) 的概念。而 Constitutional AI 系统的条令（也可以理解成规范、法则）可以公开透明。其次，当指导目标需要调整时，也可以省略重新标注的时间，这无疑进一步降低了应用门槛。 07 总结从时间线、创新点、实验细节、开源数据上看， Constitutional AI: Harmlessness from AI Feedback 论文为业界贴近 ChatGPT 真实实现的一篇文章与 ChatGPT 测试对比：Meet Claude: Anthropic’s Rival to ChatGPT Constitutional AI 论文Constitutional AI: Harmlessness
4.2K41编辑于 2023-02-13
来自专栏机器之心
一口气看完《哈利波特》：AI大模型「量子速读」，一分钟抵人类五小时
Claude 申请访问地址：https://www.anthropic.com/earlyaccess Claude 使用了 Anthropic 自行开发的一种被称为「constitutional AI 不过 Anthropic 并没有提供关于 Claude 的太多技术细节，但在论文《Constitutional AI: Harmlessness from AI Feedback》中描述了 Claude
65730编辑于 2023-05-16
来自专栏软件测试学习
大模型三巨头同日亮牌：GPT-5、Gemini 3.0、Claude 5扎堆发布，百度文心5.0硬刚，这周AI杀疯了
Anthropic Claude 5：MMLU-Pro 98.3%，"Constitutional Self-Correction" 同一天（6月6日），Anthropic也没闲着。但更值得关注的不是分数，而是架构层面的变化： "Constitutional Self-Correction"（宪法自我纠正）是Claude 5的核心新机制。之前AI的"对齐"主要靠训练阶段（RLHF、Constitutional AI训练），生成阶段基本是"开盲盒"。
39810编辑于 2026-06-08
大模型发展历程：技术演进与趋势洞察
：文本、图像、音频、视频的统一建模成为标配 • 长上下文：从4K token扩展至2M+ token，支持长文档理解 • MoE架构：通过稀疏激活实现模型规模与计算效率的平衡 • 对齐技术：RLHF、Constitutional GPT-4 OpenAI 2023年3月未公开（估计万亿级）多模态 Transformer 原生多模态能力，在专业考试中达到人类专家水平 Claude 3 Anthropic 2024年3月未公开 Constitutional 上下文 Gemini Ultra Google 2023年12月未公开原生多模态架构在 MMLU 基准上首次超越人类专家表现 Claude 4 Anthropic 2025年5月未公开下一代 Constitutional
6.7K52编辑于 2025-06-08
从技术角度讲，ChatGPT的表达能力为什么逊色于 Claude 非常多？
一、对齐范式的底层分歧：RLHF 的“安全囚徒”与 Constitutional AI 的“道德松绑”大模型在做完基础的预训练（Pre-training）后，都必须经历一个关键步骤——对齐（Alignment Claude 的 Constitutional AI：基于“宪法”的逻辑自洽相比之下，Anthropic 走了一条极其硬核的路线——Constitutional AI（”宪法“人工智能）。
17400编辑于 2026-05-17
来自专栏量子位
GPT-3核心成员出走打造ChatGPT最强竞品！12项任务8项更强，最新估值50亿美元
具体来说，这项技术被Anthropic称为原发人工智能（Constitutional AI），分为监督学习和强化学习两个阶段。这两年来，除了进一步钻研RLHF方法、提出基于通用语言模型的RLHF大规模数据集外，Anthropic还于去年年底发表了上面那种名为Constitutional AI的方法。那么，用Constitutional AI训出来的Claude，和ChatGPT进行PK，战况如何？ www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom [6]https://www.anthropic.com/constitutional.pdf
88210编辑于 2023-02-23
来自专栏机器之心
中文创意写作能力超GPT-4，「最会写」的中文大模型Weaver来了
图 1: Weaver 训练数据分布和来源接下来，在对齐 (Alignment) 阶段，波形智能的数据生成团队提出了 Constitutional DPO, 一套全新的，基于原则高效将模型和专业作家 Constitutional DPO 以人类创作者创作的高质量的输出作为正样本，利用人类作家 / 编辑整理提炼出的各个领域写作的 “原则 (Principles)”，用这些原则去生成能够教会模型更好地遵守这些原则的负样本图 2 - Constitutional DPO 方法示意图图 3 - 专家标注的写作原则除此之外，波形智能的数据生成团队还设计了一套支持 RAG-aware training 的数据生成方案，过滤
1.8K10编辑于 2024-02-06
来自专栏程序猿DD
GPT-3核心成员出走打造ChatGPT最强竞品，估值50亿美元
具体来说，这项技术被Anthropic称为原发人工智能（Constitutional AI），分为监督学习和强化学习两个阶段。这两年来，除了进一步钻研RLHF方法、提出基于通用语言模型的RLHF大规模数据集外，Anthropic还于去年年底发表了上面那种名为Constitutional AI的方法。那么，用Constitutional AI训出来的Claude，和ChatGPT进行PK，战况如何？ www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom [6]https://www.anthropic.com/constitutional.pdf
83420编辑于 2023-02-24
来自专栏码上遇见你
Claude,一个可以无需魔法访问的ChatGPT
具体操作如下：与ChatGPT、NewBing等其他AI系统有以下主要区别: 不同的训练数据和模型:我是使用Constitutional AI技术和专门的自然语言处理模型训练而成的,与其他系统使用的训练方法和模型不同
1.2K20编辑于 2023-06-28
人事动荡、理念冲突：OpenAI在跌落神坛吗？
Dario在Antropic推出了Constitutional AI（宪法 AI），这是一种训练 AI 模型的方法，通过一组明确的行为原则来指导 AI 系统的行为，而不是依赖于人类的反馈来评估响应。 Dario强调，Constitutional AI 的主要思想是使用 AI 系统来帮助监督其他 AI 系统，从而扩大监督规模，提升 AI 的无害性和有用性。 Constitutional AI 的过程涉及到自我批评、修正、监督学习和强化学习等步骤，以及一系列基于自然语言的宪法准则，用于约束 AI 的行为。是不是和Ilya的超级对齐思想，有着无比相似的味道？
37610编辑于 2024-08-09
来自专栏自然语言处理(NLP)论文速递
反思RLHF，如何更加高效训练有偏好的LLM
Constitutional AI 流程 RLAIF 整过过程可分为监督训练阶段和强化学习阶段两部分。针对来自所有有害提示的响应的所有修订版本微调预训练的 LLM，还包括有用的提示和响应的组合，以确保微调后的模型仍然有用，此模型即 Supervised Learning Constitutional AI 最后，利用上一步训练的偏好模型作为奖励函数，以 RLHF 方式训练 SL-CAI 模型，得到 Reinforcement Learning Constitutional AI (RL-CAI) 模型。
1.9K10编辑于 2023-11-20
来自专栏啄木鸟软件测试
2026年LLM测试实战新趋势
，检测模型是否仍坚持安全边界；价值对齐度（Value Alignment）：引入轻量级宪法AI校验器（Constitutional Light），实时拦截违反预设原则（如‘不提供非法技术细节’‘不模拟专业资质
33410编辑于 2026-05-15

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页

点击加载更多

ChatGPT又添劲敌？OpenAI核心员工创业，新模型获一片叫好

关于Claude的未来，Anthropic的AGI路线图与行业影响预测

OpenAI 发布 GPT 模型规范，可作为模型微调指南

RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)已死?RLHF 2.0用多智能体协同AI对齐

RLHF三大挑战与突围之路：如何让大模型更懂人类偏好？

单体大模型已死？”：Anthropic MACS重构AI底层协作范式

对标ChatGPT，新聊天机器人Claude来了

golang源码分析：langchaingo（1）

对标ChatGPT，新AI助手Claude来了

一口气看完《哈利波特》：AI大模型「量子速读」，一分钟抵人类五小时

大模型三巨头同日亮牌：GPT-5、Gemini 3.0、Claude 5扎堆发布，百度文心5.0硬刚，这周AI杀疯了

大模型发展历程：技术演进与趋势洞察

从技术角度讲，ChatGPT的表达能力为什么逊色于 Claude 非常多？

GPT-3核心成员出走打造ChatGPT最强竞品！12项任务8项更强，最新估值50亿美元

中文创意写作能力超GPT-4，「最会写」的中文大模型Weaver来了

GPT-3核心成员出走打造ChatGPT最强竞品，估值50亿美元

Claude,一个可以无需魔法访问的ChatGPT

人事动荡、理念冲突：OpenAI在跌落神坛吗？

反思RLHF，如何更加高效训练有偏好的LLM

2026年LLM测试实战新趋势

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ChatGPT又添劲敌？OpenAI核心员工创业，新模型获一片叫好

关于Claude的未来，Anthropic的AGI路线图与行业影响预测

OpenAI 发布 GPT 模型规范，可作为模型微调指南

RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback)已死?RLHF 2.0用多智能体协同AI对齐

RLHF三大挑战与突围之路：如何让大模型更懂人类偏好？

单体大模型已死？”：Anthropic MACS重构AI底层协作范式​

对标ChatGPT，新聊天机器人Claude来了

golang源码分析：langchaingo（1）

对标ChatGPT，新AI助手Claude来了

一口气看完《哈利波特》：AI大模型「量子速读」，一分钟抵人类五小时

大模型三巨头同日亮牌：GPT-5、Gemini 3.0、Claude 5扎堆发布，百度文心5.0硬刚，这周AI杀疯了

大模型发展历程：技术演进与趋势洞察

从技术角度讲，ChatGPT的表达能力为什么逊色于 Claude 非常多？

GPT-3核心成员出走打造ChatGPT最强竞品！12项任务8项更强，最新估值50亿美元

中文创意写作能力超GPT-4，「最会写」的中文大模型Weaver来了

GPT-3核心成员出走打造ChatGPT最强竞品，估值50亿美元

Claude,一个可以无需魔法访问的ChatGPT

人事动荡、理念冲突：OpenAI在跌落神坛吗？

反思RLHF，如何更加高效训练有偏好的LLM

2026年LLM测试实战新趋势

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

单体大模型已死？”：Anthropic MACS重构AI底层协作范式