搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

代号「土豆」，6万亿参数只激活10%——拆解GPT-6的Symphony架构，OpenAI怎么把大模型重做了一遍
_assess_complexity根据Prompt中的关键词评估任务复杂度，超过阈值就交给System-2处理。 _deep_reasoning则模拟了System-2的核心逻辑：生成候选答案→自我审查→发现不一致就修正→再验证，最多循环3轮。需要注意的是，这是简化模型。推理强度控制：新增的reasoning_effort参数让开发者可以控制系统是使用快速模式（System-1）还是深度推理模式（System-2）。 System-2的深度推理模式下，模型更倾向于低温度的确定性输出。5.2长上下文的实战应用200万Token的上下文窗口在实际开发中有很多用武之地。看起来更贵了，但由于MoE架构的稀疏激活和双系统推理减少了重试次数（System-2的验证机制让一次回答的准确率更高），同等任务质量下的总成本可能并没有翻倍。
43710编辑于 2026-04-21
视觉语言世界模型来了！AI不仅能看懂视频，还能自我反思制定计划，离人类思维更近一步!
采用了一条高效的抽象处理流程，并引入了一种反思式的 System-2 模式，即“带推理的规划（planning with reasoning）”。接着，介绍了如何以自监督方式训练 critic 来评估成本，并基于成本最小化原理解释 system-2 的计划搜索过程。最终状态则对目标描述进行具体化解释，以便在 System-2 规划中进行代价评估。例如：“为了达成目标，需要将鸡蛋煮熟并与西红柿混合，同时对混合物进行适当调味。为了解决这些局限性，本文引入 System-2 反思式规划，其中世界模型与一个评估模块（critic module）结合，在给定目标的情况下对多个预测的未来进行可取性评估。通过代价最小化实现 System-2 规划 System-2 规划涉及三个组件的协同工作：VLWM、评估器（critic）和执行器（actor）。
41210编辑于 2025-11-17
来自专栏机器之心
AI在线求鼓励？这些人一句话让GPT-3算术准确率提升61%
与 LLM 在直观的单步骤 system-1 任务（带有特定于任务的少样本或零样本 prompting）中的出色表现相比，即使是 100B 或更多参数的语言模型在需要缓慢和多步骤推理的 system-2 （system-1 和 system-2 是心理学家 Keith Stanovich 和 Richard West 率先提出的两种认知过程，前者对应快思考，是由直觉引导的，无意识且快速，比如看到一个数学题一下就反应出是个乘法式为了解决大模型在 system-2 任务中表现不佳的问题，Wei et al. [2022]、Wang et al. [2022]提出了 chain of thought prompting (CoT)
1.1K10编辑于 2022-05-27
来自专栏机器之心
用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐
技术报告：Don't Command, Cultivate: An Exploratory Study of System-2 Alignment 报告地址：https://arxiv.org/abs/ 另一方面，当未应用 System-2 对齐提示时，Llama3-8B 模型表现出最强的整体性能。这些结果表明，不同的模型可能需要量身定制的提示工程方法，包括对提示措辞或上下文示例的仔细调整。
53700编辑于 2025-02-03
来自专栏机器之心
刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科
阶跃星辰表示，坚持模型大小 Scaling 仍然是 System-2 的核心，已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。一手实测效果如何？
29500编辑于 2025-02-03
每周AI论文速递（241202-241206）
它结合了强化学习 (RL) 和蒙特卡洛树搜索 (MCTS)，以提升模型的系统 2 (System-2) 推理能力。报告还探讨了在实际应用中部署类似 o1 模型的机遇与挑战，建议转向系统 2 (System-2) 范式，并强调环境状态更新的重要性。模型进展与实验结果将在后续版本中报告。
45400编辑于 2025-04-08
来自专栏AI科技评论
Yoshua Bengio：我的一生
广度优先搜索”，了解到 Hinton 的连接主义，到探索人脑、初代语言模型、注意力机制等等，以及度过人工智能寒冬，再到现在探索抽象、生成流网络、Ai4Science、HLAI(人类级别智能)、意识先验、System
49620编辑于 2023-04-12
每周AI论文速递（250317-250321）
Supervised Fine-Tuning）和强化学习（RL, Reinforcement Learning）技术增强思维链（CoT, Chain-of-Thought）推理，显著提升了在数学和编程等系统2型推理（System
34400编辑于 2025-04-08
来自专栏机器之心
字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！
元素的上下文感知理解并生成精确描述；统一动作建模（Unified Action Modeling）：将动作标准化处理到跨平台的统一空间中，并通过大规模动作轨迹实现精确定位和交互； System 2 推理（System
95200编辑于 2025-02-03
来自专栏时空探索之旅
AI论文速读 | 面向复杂时空推理：高德时空智能体——STAgent的设计与实践
万条无监督历史查询中高精度筛选约 20 万高质量指令，解决真实数据噪声大、缺乏难度与多样性标签的问题；设计“SFT 引导的级联强化学习”训练范式，使模型在保持通用能力的同时，显著提升对多约束 POI 发现、行程规划、路线优化等 System
38610编辑于 2026-03-10
来自专栏大数据文摘
Yoshua Bengio：我的一生
广度优先搜索”，了解到 Hinton 的连接主义，到探索人脑、初代语言模型、注意力机制等等，以及度过人工智能寒冬，再到现在探索抽象、生成流网络、Ai4Science、HLAI(人类级别智能)、意识先验、System
48620编辑于 2023-04-10
来自专栏AIGC 先锋科技
GUI Agent 借鉴R1-Zero范式：结合在线RL与思维链推理，三策略突破GUIAgent定位性能瓶颈！
虽然先前的工作，如 OpenAIo1 [29] 和 DeepSeek-R1 [11] 表明更长的推理链可以提高在数学和编程等 System-2 任务上的性能，但最近的研究 [18, 42] 发现引入中间推理步骤可能会损害图像分类和
90210编辑于 2025-06-11
每周AI论文速递（250106-250110）
Test-time Computing: from System-1 Thinking to System-2 Thinking 测试时计算：从系统1思维到系统2思维 o1 模型在复杂推理任务中的卓越表现表明
37300编辑于 2025-04-08
来自专栏腾讯云TVP
对DeepSeek事件的复盘和展望
R1“打脸”的两个技术点之前我们做o1-Coder、OpenRFT和System-2 Alignment时，花最多精力的地方是如何设计思考过程和执行树搜索，以及如何同步更新过程奖励模型PRM。
2K20编辑于 2025-02-03
每周AI论文速递（250120-250124）
最新的具备 System-2 能力的模型 o1 和 Gemini 2.0 Flash Thinking 在测试模型中表现最佳，但仍无法达到人类专家的水平。
51110编辑于 2025-04-08
来自专栏arXiv每日学术速递
人工智能学术速递[12.6]
二进制处理架构（通常称为System-1和System-2）分别被提出作为低层和高层信息的认知处理模型。 A binary processing architecture (often referred to as System-1 and System-2) has been proposed as a
1.5K10编辑于 2021-12-09
来自专栏arXiv每日学术速递
机器学习学术速递[12.6]
二进制处理架构（通常称为System-1和System-2）分别被提出作为低层和高层信息的认知处理模型。 A binary processing architecture (often referred to as System-1 and System-2) has been proposed as a
1.9K20编辑于 2021-12-09

代号「土豆」，6万亿参数只激活10%——拆解GPT-6的Symphony架构，OpenAI怎么把大模型重做了一遍

视觉语言世界模型来了！AI不仅能看懂视频，还能自我反思制定计划，离人类思维更近一步!

AI在线求鼓励？这些人一句话让GPT-3算术准确率提升61%

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

每周AI论文速递（241202-241206）

Yoshua Bengio：我的一生

每周AI论文速递（250317-250321）

字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！

AI论文速读 | 面向复杂时空推理：高德时空智能体——STAgent的设计与实践

Yoshua Bengio：我的一生

GUI Agent 借鉴R1-Zero范式：结合在线RL与思维链推理，三策略突破GUIAgent定位性能瓶颈！

每周AI论文速递（250106-250110）

对DeepSeek事件的复盘和展望

每周AI论文速递（250120-250124）

人工智能学术速递[12.6]

机器学习学术速递[12.6]

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

代号「土豆」，6万亿参数只激活10%——拆解GPT-6的Symphony架构，OpenAI怎么把大模型重做了一遍

视觉语言世界模型来了！AI不仅能看懂视频，还能自我反思制定计划，离人类思维更近一步!

AI在线求鼓励？这些人一句话让GPT-3算术准确率提升61%

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

刚刚，阶跃星辰发布Step R-mini！推理模型从此不再文理偏科

每周AI论文速递（241202-241206）

Yoshua Bengio：我的一生

每周AI论文速递（250317-250321）

字节版Operator抢跑OpenAI? 直接免费开源， 网友：怒省200美元！

AI论文速读 | 面向复杂时空推理：高德时空智能体——STAgent的设计与实践

Yoshua Bengio：我的一生

GUI Agent 借鉴R1-Zero范式：结合在线RL与思维链推理，三策略突破GUIAgent定位性能瓶颈 ！

每周AI论文速递（250106-250110）

对DeepSeek事件的复盘和展望

每周AI论文速递（250120-250124）

人工智能学术速递[12.6]

机器学习学术速递[12.6]

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

字节版Operator抢跑OpenAI? 直接免费开源，网友：怒省200美元！

GUI Agent 借鉴R1-Zero范式：结合在线RL与思维链推理，三策略突破GUIAgent定位性能瓶颈！