首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 视觉语言世界模型来了!AI不仅能看懂视频,还能自我反思制定计划,离人类思维更近一步!

    采用了一条高效的抽象处理流程,并引入了一种反思式的 System-2 模式,即“带推理的规划(planning with reasoning)”。 接着,介绍了如何以自监督方式训练 critic 来评估成本,并基于成本最小化原理解释 system-2 的计划搜索过程。 最终状态则对目标描述进行具体化解释,以便在 System-2 规划中进行代价评估。例如:“为了达成目标,需要将鸡蛋煮熟并与西红柿混合,同时对混合物进行适当调味。 为了解决这些局限性,本文引入 System-2 反思式规划,其中世界模型与一个评估模块(critic module)结合,在给定目标的情况下对多个预测的未来进行可取性评估。 通过代价最小化实现 System-2 规划 System-2 规划涉及三个组件的协同工作:VLWM、评估器(critic)和执行器(actor)。

    24610编辑于 2025-11-17
  • 来自专栏机器之心

    AI在线求鼓励?这些人一句话让GPT-3算术准确率提升61%

    与 LLM 在直观的单步骤 system-1 任务(带有特定于任务的少样本或零样本 prompting)中的出色表现相比,即使是 100B 或更多参数的语言模型在需要缓慢和多步骤推理的 system-2 (system-1 和 system-2 是心理学家 Keith Stanovich 和 Richard West 率先提出的两种认知过程,前者对应快思考,是由直觉引导的,无意识且快速,比如看到一个数学题一下就反应出是个乘法式 为了解决大模型在 system-2 任务中表现不佳的问题,Wei et al. [2022]、Wang et al. [2022]提出了 chain of thought prompting (CoT)

    1K10编辑于 2022-05-27
  • 来自专栏机器之心

    用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

    技术报告:Don't Command, Cultivate: An Exploratory Study of System-2 Alignment 报告地址:https://arxiv.org/abs/ 另一方面,当未应用 System-2 对齐提示时,Llama3-8B 模型表现出最强的整体性能。这些结果表明,不同的模型可能需要量身定制的提示工程方法,包括对提示措辞或上下文示例的仔细调整。

    36900编辑于 2025-02-03
  • 来自专栏机器之心

    刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

    阶跃星辰表示,坚持模型大小 Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。 一手实测效果如何?

    22200编辑于 2025-02-03
  • 每周AI论文速递(241202-241206)

    它结合了强化学习 (RL) 和蒙特卡洛树搜索 (MCTS),以提升模型的系统 2 (System-2) 推理能力。 报告还探讨了在实际应用中部署类似 o1 模型的机遇与挑战,建议转向系统 2 (System-2) 范式,并强调环境状态更新的重要性。模型进展与实验结果将在后续版本中报告。

    30800编辑于 2025-04-08
  • 来自专栏AI科技评论

    Yoshua Bengio:我的一生

    广度优先搜索”,了解到 Hinton 的连接主义, 到探索人脑、初代语言模型、注意力机制等等,以及度过人工智能寒冬,再到现在探索抽象、生成流网络、Ai4Science、HLAI(人类级别智能)、意识先验、System

    43520编辑于 2023-04-12
  • 每周AI论文速递(250317-250321)

    Supervised Fine-Tuning)和强化学习(RL, Reinforcement Learning)技术增强思维链(CoT, Chain-of-Thought)推理,显著提升了在数学和编程等系统2型推理(System

    29400编辑于 2025-04-08
  • 来自专栏机器之心

    字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!

    元素的上下文感知理解并生成精确描述; 统一动作建模(Unified Action Modeling):将动作标准化处理到跨平台的统一空间中,并通过大规模动作轨迹实现精确定位和交互; System 2 推理(System

    76300编辑于 2025-02-03
  • 来自专栏时空探索之旅

    AI论文速读 | 面向复杂时空推理:高德时空智能体——STAgent的设计与实践

    万条无监督历史查询中高精度筛选约 20 万高质量指令,解决真实数据噪声大、缺乏难度与多样性标签的问题; 设计“SFT 引导的级联强化学习”训练范式,使模型在保持通用能力的同时,显著提升对多约束 POI 发现、行程规划、路线优化等 System

    7610编辑于 2026-03-10
  • 来自专栏大数据文摘

    Yoshua Bengio:我的一生

    广度优先搜索”,了解到 Hinton 的连接主义, 到探索人脑、初代语言模型、注意力机制等等,以及度过人工智能寒冬,再到现在探索抽象、生成流网络、Ai4Science、HLAI(人类级别智能)、意识先验、System

    42120编辑于 2023-04-10
  • 来自专栏AIGC 先锋科技

    GUI Agent 借鉴R1-Zero范式:结合在线RL与思维链推理,三策略突破GUIAgent定位性能瓶颈 !

    虽然先前的工作,如 OpenAIo1 [29] 和 DeepSeek-R1 [11] 表明更长的推理链可以提高在数学和编程等 System-2 任务上的性能,但最近的研究 [18, 42] 发现引入中间推理步骤可能会损害图像分类和

    70010编辑于 2025-06-11
  • 每周AI论文速递(250106-250110)

    Test-time Computing: from System-1 Thinking to System-2 Thinking 测试时计算:从系统1思维到系统2思维 o1 模型在复杂推理任务中的卓越表现表明

    27700编辑于 2025-04-08
  • 来自专栏腾讯云TVP

    对DeepSeek事件的复盘和展望

    R1“打脸”的两个技术点之前我们做o1-Coder、OpenRFT和System-2 Alignment时,花最多精力的地方是如何设计思考过程和执行树搜索,以及如何同步更新过程奖励模型PRM。

    1.8K20编辑于 2025-02-03
  • 每周AI论文速递(250120-250124)

    最新的具备 System-2 能力的模型 o1 和 Gemini 2.0 Flash Thinking 在测试模型中表现最佳,但仍无法达到人类专家的水平。

    39110编辑于 2025-04-08
  • 来自专栏arXiv每日学术速递

    人工智能学术速递[12.6]

    二进制处理架构(通常称为System-1和System-2)分别被提出作为低层和高层信息的认知处理模型。 A binary processing architecture (often referred to as System-1 and System-2) has been proposed as a

    1.3K10编辑于 2021-12-09
  • 来自专栏arXiv每日学术速递

    机器学习学术速递[12.6]

    二进制处理架构(通常称为System-1和System-2)分别被提出作为低层和高层信息的认知处理模型。 A binary processing architecture (often referred to as System-1 and System-2) has been proposed as a

    1.8K20编辑于 2021-12-09
领券