关键词:图形推理,量子理论,从正确或错误中学习,反向推理,精确的数学区分,推理涟漪效应,可解释的坚实数学基础,因果
虽然在各种学习任务上表现出令人印象深刻的表现,但目前尚不清楚深度学习模型是否有能 力稳健地处理推理任务。衡量机器学习模型中推理的稳健性具有挑战性,因为需要提供一项 任务,该任务不能通过利用数据中的虚假统计相关性轻易简化,同时对复杂的对象和约束进 行操作。为了解决这个问题,我们提出了CHEMALGEBRA,这是一种通过预测化学计量平衡 的化学反应来衡量深度学习模型推理能力的基准。CHEMALGEBRA需要在代数约束 (例 如质量守恒原理)下操纵一组复杂的离散对象 (分子表示为公式或图形)。我们相信 CHEMALGEBRA可以作为下一代机器推理模型的有用测试平台,并作为其发展的推动者。
paper:https://doi.org/10.1016/j.robot.2022.104294
Agentic Reasoning 的核心价值(范式转变) 论文将 Agentic Reasoning 定义为:让大模型从“被动的文本生成器”,升级为“主动的自主智能体”,其核心是将推理从“静态的文本计算 基础智能体推理(Foundational Agentic Reasoning) 这是 Agentic Reasoning 的“入门级层次”,面向稳定、简单的封闭环境(环境参数基本不变,任务难度较低),核心目标是构建 自我进化智能体推理(Self-evolving Agentic Reasoning) 这是 Agentic Reasoning 的“进阶层次”,面向动态、变化的开放环境(环境参数会随时间变化,任务可能出现突发情况 多智能体集体推理(Collective Multi-agent Reasoning) 这是 Agentic Reasoning 的“高级层次”,面向超复杂、多目标的开放环境(单一智能体无法完成,需要多个智能体分工协作 后训练推理(Post-training Reasoning) 核心定义 通过修改大模型的参数(权重),将 Agentic Reasoning 的行为模式、决策逻辑,内化到模型本身——相当于“通过‘训练’
层次推理模型 Hierarchical Reasoning Model https://arxiv.org/abs/2506.21734 论文: https://arxiv.org/abs/2506.21734 为此,我们探索“潜在推理”(latent reasoning),即模型在其内部隐藏状态空间中进行计算15,16。 受这种分层且多时间尺度的生物结构启发,我们提出了分层推理模型(Hierarchical Reasoning Model, HRM)。HRM旨在显著提升有效计算深度。 在“抽象与推理语料库”(Abstraction and Reasoning Corpus, ARC)AGI挑战赛27,28,29——一个归纳推理的基准测试中,HRM仅使用官方数据集(约1000个样本)从零开始训练 Shen等人16 提出在Transformer中加入连续的循环推理标记(recurrent reasoning tokens)。此外,TransNAR8 将循环图神经网络与语言模型相结合。
对象、概念和事件等离散抽象是我们感知世界、关联其中的碎片以及解释其因果结构的能力的基础。以对象为中心的表示学习和因果机器学习的研究界在很大程度上独立地追求了一个类似的议程,为机器学习模型配备更结构化的表示和推理能力。尽管它们的语言不同,但这两个字段的运作假设是,与整体/黑盒表示相比,结构化模型将提高系统概括性、分布转移的鲁棒性、下游学习效率和可解释性。然而,两个社区通常从相反的方向处理这个问题。关于因果关系的工作通常假设已知的(真实)分解为因果因素,并专注于推断和利用它们之间的相互作用。另一方面,以对象为中心的表示学习通常从非结构化输入开始,旨在将有用的分解推断为有意义的因素,到目前为止,对它们的交互关注较少。
这篇论文主要讨论了如何提高大型语言模型(LLMs)在推理时的计算效率。目前的LLMs在推理时往往采用固定的计算预算,导致对于简单问题过度思考,而对于复杂问题则不足思考。为了改善这种情况,作者提出了适应性和可控性两种策略,并对这两种策略进行了详细的介绍和比较。通过在多个数据集上进行测试,作者还探讨了这些策略之间的关键权衡,并指出了未来需要解决的关键挑战。总体来说,本文为提高LLMs的计算效率提供了有价值的参考。
models generate each token sequentially when producing reasoning answers. (At Which Training Stage Does Code Data Help LLMs Reasoning? challenges (At Which Training Stage Does Code Data Help LLMs Reasoning? Not all reasoning tasks provide equal business value, and complex “general” reasoning may not always Together, these trends point toward more powerful and reliable AI reasoning systems.
【论文阅读】Temporal knowledge graph reasoning based on evolutional representation learning Metadata authors SIGIR 2021:Temporal Knowledge Graph Reasoning Based on Evolutional Representation Learning 问题描述 一个时间知识图谱 参考资料 [1] Temporal Knowledge Graph Reasoning Based on Evolutional Representation Learning
Inference Mechanism in ProductionDeepSeek R1's real-time reasoning can be characterized by two modes: Multi-path Generation and Selection- Generation: The model may implicitly generate multiple potential reasoning Reinforcement Learning- Objective: GRPO algorithm trains the model to generate more detailed, logical reasoning
视觉推理Visual Reasoning就是这样一个应运而生的问题! CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning. arXiv preprint A simple neural network module for relational reasoning. arXiv preprint arXiv:1706.01427, 2017. [3] Hu Inferring and Executing Programs for Visual Reasoning. arXiv preprint arXiv:1705.03633, 2017. [5] Perez Learning Visual Reasoning Without Strong Priors. arXiv preprint arXiv:1707.03017, 2017.
视觉推理Visual Reasoning就是这样一个应运而生的问题! CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning. arXiv preprint A simple neural network module for relational reasoning. arXiv preprint arXiv:1706.01427, 2017. [3] Hu Inferring and Executing Programs for Visual Reasoning. arXiv preprint arXiv:1705.03633, 2017. [5] Perez Learning Visual Reasoning Without Strong Priors. arXiv preprint arXiv:1707.03017, 2017.
How comparable is the reasoning model's S-curve to the pre-training S-curve? While theoretically we can identify three phases:Pre-trainingPost-training (especially reasoning-focused , but they can't actually control reasoning quality by increasing computation time. models requiring more online computational resources compared to traditional non-reasoning models. If reasoning models' scaling laws lack sustainability, this raises a deeper question: Can we reach the
【论文阅读】HIP network: Historical information passing network for extrapolation reasoning on temporal knowledge ---- 前言 关于时间知识图谱的论文:HIP Network: Historical Information Passing Network for Extrapolation Reasoning on 参考资料 [1] HIP Network: Historical Information Passing Network for Extrapolation Reasoning on Temporal
受邀专家:Sumit Chopra (Facebook) 过去几十年,在完成基本预测任务方面(比如,文本分类、图像说明以及语音识别),机器学习领域成绩斐然。但是,如何解决更深的(deeper)推理任务
Are Reasoning Models More Prone to Hallucination? 推理模型更容易产生幻觉吗? 目前主流的LRMs广泛采用以下三种典型的后训练流程: • 冷启动SFT + 推理RL(Cold Start SFT with Reasoning RL)。 • 推理蒸馏SFT(Reasoning Distillation SFT)。最近,人们普遍认为强化学习(RL)阶段对于开发LRMs并非必要。
【本文主要通俗理解一下 DeepSeek-R1 的论文内容,具体细节还是要看论文里面描述的为准。】
reasoning, commonsense reasoning, and symbolic reasoning. PS prompting addresses missing-step errors by explicitly generating reasoning steps. PS+ prompting can be customized to solve a variety of problems other than math reasoning. PS+ prompting has a performance similar to an 8-shot CoT prompting in arithmetic reasoning. problems: arithmetic reasoning, commonsense reasoning, and symbolic reasoning.
vLLM 部署 Qwen3-VL-32B-Thinking 模型 reasoning_content 为空问题解决记录问题背景在部署 Qwen3-VL-32B-Thinking 模型时,遇到了 reasoning_content 问题现象初始错误:启动脚本中缺少 --reasoning-parser 参数的值api_server.py: error: argument --reasoning-parser: expected one :--reasoning-parser 参数缺少值--reasoning-parser # 错误:缺少参数值解决:添加 qwen3 作为参数值--reasoning-parser qwen3第二步:排查推理内容分离问题通过测试发现 第四步:最终解决方案修改启动脚本:将 --reasoning-parser 从 qwen3 改为 deepseek_r1# 修改前--reasoning-parser qwen3# 修改后 --reasoning-parser [0].message.reasoning_content'