每周AI论文速递（260216-260220）

叶子的技术碎碎念

发布于 2026-03-02 19:50:55

3330

Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

[少即是多：在大语言模型的特征空间中合成多样化数据](https://arxiv.org/abs/2602.10388)

训练后数据的多样性对于大语言模型 (LLMs) 取得良好的下游性能至关重要。许多现有的训练后数据构建方法使用基于文本的指标来量化多样性，这些指标衡量的是语言层面的变化，但它们仅能微弱地指示那些决定下游性能的任务相关特征。在这项工作中，我们提出了特征激活覆盖 (Feature Activation Coverage, FAC)，该指标在一个可解释的特征空间内衡量数据多样性。基于该指标，我们进一步提出了一个名为 FAC Synthesis 的多样性驱动数据合成框架。该框架首先使用稀疏自编码器从种子数据集中识别缺失的特征，然后生成能明确反映这些特征的合成样本。实验表明，我们的方法在多种任务上均能持续提升数据多样性和下游性能，这些任务包括指令遵循、毒性检测、奖励建模和行为引导。有趣的是，我们发现了一个跨模型家族（即 LLaMA、Mistral 和 Qwen）共享的可解释特征空间，从而实现了跨模型的知识迁移。我们的工作为探索以数据为中心的大语言模型优化提供了一套坚实且实用的方法论。

SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise

[SQuTR：声学噪声下语音查询文本检索的鲁棒性基准](https://arxiv.org/abs/2602.12783)

语音查询检索是现代信息检索中的一种重要方式。然而，现有评估数据集通常仅包含受控或特定噪声条件下的简单查询，难以充分评估语音查询检索系统在复杂声学干扰下的鲁棒性。为弥补这一不足，我们提出了 SQuTR，这是一个用于语音查询检索的鲁棒性基准，包含一个大规模数据集和一套统一的评估协议。SQuTR 汇集了来自六个常用英文和中文文本检索数据集的 37,317 条不重复查询，涵盖多个领域和多种查询类型。我们利用 200 位真实说话者的语音配置文件合成语音，并在受控的信噪比 (SNR) 水平下混入 17 类真实环境噪声，从而实现了从安静到高噪声条件下可复现的鲁棒性评估。基于该统一协议，我们对代表性的级联和端到端检索系统进行了大规模评估。实验结果表明，检索性能随噪声增强而下降，且不同系统的性能下降幅度差异显著。即使是大规模检索模型在极端噪声下也难以应对，这表明鲁棒性仍是关键瓶颈。总之，SQuTR 为基准测试和诊断分析提供了一个可复现的测试平台，并将助力未来语音查询文本检索鲁棒性的相关研究。

GLM-5: from Vibe Coding to Agentic Engineering

[GLM-5：从氛围编码到智能体工程](https://arxiv.org/abs/2602.15763)

我们介绍 GLM-5，这是一个旨在将氛围编码 (Vibe Coding) 范式转变为智能体工程 (Agentic Engineering) 的下一代基础模型。基于其前代模型的智能体 (Agentic)、推理 (Reasoning) 和编码 (Coding) (ARC) 能力，GLM-5 采用 DSA (可能指特定架构或技术，原文未展开) 来显著降低训练和推理成本，同时保持长上下文的信息保真度。为了提升模型的对齐性和自主性，我们实现了一套新的异步强化学习基础设施，通过将生成过程与训练过程解耦，大幅提高了后训练效率。此外，我们提出了新颖的异步智能体强化学习算法，进一步提升了强化学习的质量，使模型能够更有效地从复杂的、长时程的交互中学习。通过这些创新，GLM-5 在主要开放基准测试中取得了领先的性能。最关键的是，GLM-5 在现实世界的编码任务中展现了前所未有的能力，在处理端到端软件工程挑战方面超越了以往的基准模型。代码、模型和更多信息可在 https://github.com/zai-org/GLM-5 获取。

Experiential Reinforcement Learning

[经验强化学习](https://arxiv.org/abs/2602.13949)

强化学习已成为语言模型从环境奖励或反馈中学习的主要途径。然而在实践中，环境反馈通常具有稀疏性和延迟性。从这类信号中学习颇具挑战，因为语言模型必须隐式地推断：如何将观察到的失败转化为未来迭代中的行为调整。为此，我们提出了经验强化学习，这是一种训练范式，它将一个显式的"经验-反思-巩固"循环嵌入到强化学习过程中。具体而言，给定一个任务，模型首先进行初始尝试并接收环境反馈，随后生成一个反思，该反思用于指导一次经过优化的第二次尝试。第二次尝试的成功将被强化并内化到基础策略中。这一过程将反馈转化为结构化的行为修正，从而改善了探索过程、稳定了优化，同时无需额外的推理成本即可保持部署时的性能增益。在稀疏奖励控制环境和智能体推理基准测试中，相较于强大的强化学习基线方法，ERL 持续提升了学习效率和最终性能：在复杂的多步环境中实现了高达 +81% 的性能提升，在工具使用推理任务中实现了高达 +11% 的提升。这些结果表明，将显式的自我反思整合到策略训练中，为将反馈转化为持久的行为改进提供了一种切实可行的机制。

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

[MedXIAOHE: 构建医学多模态大语言模型的全面方案](https://arxiv.org/abs/2602.12705)

我们提出了 MedXIAOHE，这是一个医学视觉-语言基础模型，旨在增强现实临床应用中的通用医学理解与推理能力。MedXIAOHE 在多种医学基准上取得了最先进的性能，并在多项能力上超越了领先的闭源多模态系统。为实现这一目标，我们提出了一个实体感知的持续预训练框架，通过组织异构医学语料库来拓宽知识覆盖面并缓解长尾问题（例如罕见疾病）。针对医学专家级的推理与交互，MedXIAOHE 通过强化学习和工具增强的智能体训练，整合了多样化的医学推理模式，从而能够进行多步诊断推理，并提供可验证的决策轨迹。为了提升现实应用的可靠性，MedXIAOHE 集成了用户偏好准则、基于证据的推理以及幻觉率低的长篇报告生成能力，同时加强了对医学指令的遵从性。我们发布本报告，旨在记录我们的实际设计选择、扩展经验以及评估框架，以期激发进一步的研究。

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

[无需缩放：面向细粒度多模态感知的区域到图像蒸馏](https://arxiv.org/abs/2602.11858)

多模态大语言模型 (MLLMs) 擅长宏观视觉理解，但在细粒度感知方面仍面临挑战，因为关键证据往往尺寸微小，易被全局上下文信息所掩盖。近期的"图像思维"方法通过在推理时迭代缩放感兴趣区域来缓解此问题，但这会因重复的工具调用和视觉特征重编码而导致高延迟。为解决此问题，我们提出了区域到图像蒸馏方法，将缩放操作从推理时的外部工具转化为训练时的内置机制，从而将智能体式缩放的优势内化到 MLLM 的单次前向传播中。具体而言，我们首先对微裁剪区域进行放大，利用强大的教师模型生成高质量的视觉问答 (VQA) 数据，随后将此基于区域信息的监督信号蒸馏回完整图像。经过此类数据训练后，较小的学生模型无需借助任何工具，即可提升其"单次观察"的细粒度感知能力。为严格评估此能力，我们进一步提出了 ZoomBench，这是一个包含 845 个 VQA 数据的混合标注基准，涵盖六个细粒度感知维度，并附带一个用于量化全局与区域间"缩放差距"的双视图评估协议。实验表明，我们的模型在多个细粒度感知基准测试中取得了领先性能，同时也在视觉推理和 GUI 智能体等基准测试上提升了通用的多模态认知能力。我们还进一步探讨了在何种情况下仍需"图像思维"方法，以及在何种情况下其性能增益可通过蒸馏融入单次前向传播。我们的代码公开于 https://github.com/inclusionAI/Zooming-without-Zooming。

Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

[稀疏自编码器的合理性检查：SAEs 能否击败随机基线？](https://arxiv.org/abs/2602.14111)

稀疏自编码器 (Sparse Autoencoders, SAEs) 已成为一种通过将神经网络激活分解为稀疏的人类可解释特征集，从而解释神经网络的有前景工具。近期研究提出了多种 SAE 变体，并成功将其应用于前沿模型。尽管备受关注，但下游任务中日益增多的负面结果引发了对其是否恢复了有意义特征的质疑。为直接探究此问题，我们进行了两项互补性评估。在一个已知真实特征的合成实验设置中，我们证明 SAEs 仅恢复了 9\% 的真实特征，尽管其实现了 71\% 的解释方差，这表明即使重建效果很强，它们在其核心任务上也是失败的。为了在真实激活上评估 SAEs，我们引入了三个基线方法，这些方法将 SAE 的特征方向或其激活模式约束为随机值。通过对多种 SAE 架构进行大量实验，我们发现这些基线在可解释性 (0.87 vs 0.90) 、稀疏探测 (0.69 vs 0.72) 和因果编辑 (0.73 vs 0.72) 方面与完全训练的 SAEs 表现相当。综上所述，这些结果表明，现有形式的 SAEs 并不能可靠地分解模型的内部机制。

Unified Latents (UL): How to train your latents

[统一潜变量 (UL): 潜变量训练方法](https://arxiv.org/abs/2602.17270)

我们提出了统一潜变量 (Unified Latents, UL) 框架，用于学习潜表示 (latent representations)。该框架利用扩散先验 (diffusion prior) 对潜表示进行联合正则化，并使用扩散模型 (diffusion model) 进行解码。通过将编码器的输出噪声与先验的最小噪声水平相关联，我们得到了一个简单的训练目标，该目标为潜变量比特率 (latent bitrate) 提供了一个紧致上界。在 ImageNet-512 数据集上，我们的方法取得了 1.4 的具有竞争力的 FID 分数，同时保持了高重建质量 (PSNR)，并且所需的训练 FLOPs 少于基于 Stable Diffusion 潜变量训练的模型。在 Kinetics-600 数据集上，我们取得了 FVD 为 1.3 的最新最优结果。

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

[SLA2：具有可学习路由和量化感知训练（QAT）的稀疏线性注意力](https://arxiv.org/abs/2602.12675)

稀疏线性注意力 (SLA) 结合了稀疏注意力和线性注意力来加速扩散模型，并在视频生成任务中表现出色。然而，(i) SLA 依赖于一种启发式分割策略，该策略根据注意力权重的大小将计算分配到稀疏分支或线性分支，这可能并非最优。此外，(ii) 在对 SLA 中的注意力误差进行正式分析后，我们识别出 SLA 与直接分解为稀疏注意力和线性注意力的方案之间存在不匹配。为此，我们提出了 SLA2，它引入了以下三个关键改进：(I) 一个可学习的路由器，用于动态选择每个注意力计算应使用稀疏注意力还是线性注意力；(II) 一个更贴近原意且更直接的稀疏-线性注意力公式，该公式使用一个可学习的比率来结合稀疏和线性注意力分支；(III) 一种稀疏 + 低比特注意力的设计，其中通过量化感知微调引入低比特注意力以减少量化误差。实验表明，在视频扩散模型上，SLA2 能够实现 97% 的注意力稀疏度，并带来 18.6 倍的注意力计算加速，同时保持生成质量。

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

[SkillsBench：评估智能体技能在多样化任务上的表现](https://arxiv.org/abs/2602.12670)

智能体技能 (Agent Skills) 是程序性知识的结构化封装，用于在推理时增强大语言模型智能体。尽管其应用迅速，但目前尚无标准方法来衡量其实际效用。我们提出了 SkillsBench，这是一个包含 11 个领域、86 个任务的基准测试，并搭配了精心策划的技能和确定性验证器。每个任务在三种条件下进行评估：无技能、精心策划的技能和自生成的技能。我们在 7,308 条轨迹上测试了 7 种智能体-模型配置。精心策划的技能将平均通过率提高了 16.2 个百分点 (pp)，但效果因领域而异，差异显著（软件工程领域为 +4.5pp，医疗保健领域高达 +51.9pp），并且在 84 个任务中有 16 个出现了负增长。自生成的技能平均未带来任何益处，这表明模型无法可靠地创作出它们自身能从中受益的程序性知识。包含 2-3 个模块的聚焦型技能优于全面的说明文档，并且配备技能的小模型可以达到未配备技能的大模型的性能水平。

DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories

[DeepImageSearch：面向视觉历史中上下文感知图像检索的多模态智能体基准测试](https://arxiv.org/abs/2602.10809)

现有的多模态检索系统擅长语义匹配，但其隐含假设是查询与图像的相关性可以孤立地评估。这种范式忽略了现实视觉数据流中固有的丰富依赖关系，因为信息分布在时间序列中，而非局限于单个快照。为弥补这一不足，我们提出了 DeepImageSearch，这是一种新颖的智能体范式，它将图像检索重新定义为一项自主探索任务。模型必须对原始视觉历史进行规划并执行多步推理，才能根据隐式的上下文线索定位目标图像。我们构建了 DISBench，这是一个基于互连视觉数据的、具有挑战性的基准测试集。为应对生成上下文相关查询时面临的可扩展性挑战，我们提出了一种人机协作流程，利用视觉语言模型挖掘潜在的时空关联，从而在人工验证之前有效地前置处理密集的上下文发现任务。此外，我们采用一个模块化智能体框架构建了一个强大的基线系统，该框架配备了细粒度工具和一个用于长程导航的双记忆系统。大量实验表明，DISBench 给最先进的模型带来了严峻挑战，这凸显了将智能体推理能力集成到下一代检索系统中的必要性。

BitDance: Scaling Autoregressive Generative Models with Binary Tokens

[BitDance：使用二进制 Token 扩展自回归生成模型](https://arxiv.org/abs/2602.14041)

我们提出了 BitDance，一种可扩展的自回归 (AR) 图像生成模型，它预测的是二进制视觉 token，而非码本索引。利用高熵的二进制潜在表示，BitDance 使每个 token 最多可表示 2^{256} 种状态，从而形成一种紧凑且表达力极强的离散表示。从如此庞大的 token 空间中进行采样，使用标准的分类方法十分困难。为此，BitDance 采用了一个二进制扩散头：它不通过 softmax 预测索引，而是利用连续空间扩散来生成二进制 token。此外，我们提出了下一块扩散，这是一种新的解码方法，能够高精度并行预测多个 token，从而极大提升了推理速度。在 ImageNet 256x256 数据集上，BitDance 取得了 1.24 的 FID 分数，在所有 AR 模型中表现最佳。结合下一块扩散，BitDance 在仅使用 2.6 亿参数 (减少 5.4 倍) 并实现 8.7 倍加速的情况下，性能超越了参数规模达 14 亿的先进并行 AR 模型。在文本到图像生成任务中，BitDance 基于大规模多模态 token 进行训练，能够高效生成高分辨率、照片级真实感的图像，展现了强大的性能和良好的扩展性。在生成 1024x1024 图像时，BitDance 相比以往的 AR 模型实现了超过 30 倍的加速。我们发布了代码与模型，以促进对 AR 基础模型的进一步研究。代码与模型发布在：https://github.com/shallowdream204/BitDance。

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

[OneVision-Encoder：以编解码器对齐的稀疏性作为多模态智能的基础原则](https://arxiv.org/abs/2602.08683)

核心假设。通用人工智能 (AGI) 的核心是一个压缩问题。有效的压缩要求架构与数据的基本结构产生共振：当深度学习架构与数据的基本结构对齐时，其扩展性最佳。这是基本原则。然而，现代视觉架构已偏离这些原则：视觉信号高度冗余，而具有判别性的信息（即意外信息或信息熵）却是稀疏的。当前模型均匀地处理密集像素网格，将大量计算浪费在静态背景上，而非聚焦于定义运动与意义的预测残差。我们认为，要解决视觉理解问题，必须使我们的架构与视频的信息论原则（即编解码器 (Codec) 原理）对齐。

方法。OneVision-Encoder 通过将预测性视觉结构压缩为语义信息来编码视频。通过采用编解码器分块化 (Codec Patchification) 技术，OV-Encoder 摒弃了均匀计算，仅专注于信号熵丰富的区域（占总区域的 3.1%-25%）。为了在不规则 Token 布局下统一空间与时间推理，OneVision-Encoder 采用了共享的 3D RoPE，并利用超过一百万个语义概念的大规模聚类判别目标进行训练，从而同时捕获对象持久性和运动动态。

实验证据。结果验证了我们的核心假设：效率与准确性并非此消彼长的权衡关系，而是正相关的。当集成到大语言模型 (LLM) 中时，OV-Encoder 在 16 个图像、视频和文档理解基准测试中，持续优于 Qwen3-ViT 和 SigLIP2 等强大的视觉骨干网络，尽管其使用的视觉 Token 和预训练数据量显著更少。值得注意的是，在视频理解任务上，OV-Encoder 相比 Qwen3-ViT 平均提升了 4.1%。编解码器对齐的、分块级别的稀疏性是一个基础原则，它使 OV-Encoder 能够成为下一代通用视觉模型的可扩展引擎。

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

[AutoWebWorld：通过有限状态机合成无限可验证的Web环境](https://arxiv.org/abs/2602.14296)

自主 Web GUI 智能体的性能高度依赖于其训练数据的质量与数量。然而，一个根本性瓶颈始终存在：从真实网站收集交互轨迹成本高昂且难以验证。由于底层状态转换是隐藏的，评估每一步的正确性不得不依赖不一致且昂贵的外部验证器。为解决此问题，我们提出了 AutoWebWorld，这是一个新颖的框架，通过将 Web 环境建模为有限状态机 (FSMs) ，并利用编码智能体将 FSM 转换为交互式网站，从而合成可控且可验证的 Web 环境。与状态转换隐式的真实网站不同，AutoWebWorld 明确定义了所有状态、动作及状态转移规则。这支持了程序化验证：动作正确性可根据预定义规则进行检查，而任务成功则通过判断是否在 FSM 图中到达目标状态来确认。AutoWebWorld 实现了一套全自动的搜索与验证流程，以每条轨迹仅 0.04 美元的成本，从 29 个不同的 Web 环境中生成了超过 11,663 条已验证轨迹。基于此合成数据进行训练，能显著提升智能体在真实场景下的性能。我们的 70 亿参数 Web GUI 智能体在 WebVoyager 基准测试中，于 15 步之内超越了所有基线模型。此外，我们观察到了一个清晰的缩放律：随着合成数据量的增加，模型在 WebVoyager 和 Online-Mind2Web 上的性能持续提升。

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

[Mobile-Agent-v3.5: 多平台基础 GUI 智能体](https://arxiv.org/abs/2602.16855)

本文介绍了 GUI-Owl-1.5，这是最新的原生图形用户界面 (GUI) 智能体模型。该模型提供多种参数量 (2B/4B/8B/32B/235B) 的指令/思考变体，并支持桌面、移动、浏览器等一系列平台，以实现云边协同与实时交互。在超过 20 项 GUI 相关基准测试中，GUI-Owl-1.5 在开源模型范畴内取得了领先的性能: (1) 在 GUI 自动化任务上，其在 OSWorld、AndroidWorld 和 WebArena 的得分分别为 56.5、71.6 和 48.4; (2) 在 Grounding 任务上，其在 ScreenSpotPro 的得分为 80.3; (3) 在工具调用任务上，其在 OSWorld-MCP 和 MobileWorld 的得分分别为 47.6 和 46.8; (4) 在记忆与知识任务上，其在 GUI-Knowledge Bench 的得分为 75.5。GUI-Owl-1.5 融合了多项关键创新: (1) 混合数据飞轮: 我们结合模拟环境与云沙盒环境，构建了用于界面理解和操作轨迹生成的数据管道，从而提升了数据收集的效率与质量。(2) 智能体能力统一增强: 我们采用统一的思维合成流程来提升模型的推理能力，并着重强化了工具/MCP 使用、记忆以及多智能体适应等关键智能体能力。(3) 多平台环境强化学习扩展: 我们提出了一种新的环境强化学习算法 MRPO，以解决多平台冲突与长周期任务训练效率低下的挑战。GUI-Owl-1.5 模型已开源，其在线云沙盒演示可在 https://github.com/X-PLUG/MobileAgent 访问。

你好，我是叶子，9年Java开发老司机，待过小的创业公司也待过上市厂子。擅长各种姿势的CRUD，但现在工作重心逐渐往中间件开发转移。喜欢折腾技术，AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识，我都希望能和大家共同学习进步，如果文章有用，还请大家点击关注，希望我们能一起在技术的道路上走的更远！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-03-01，如有侵权请联系 cloudcommunity@tencent.com 删除

测试