国产首个开源、系统化的多模态世界模型HY-World 2.0：效果硬刚闭源商业模型

AI生成未来

发布于 2026-04-29 13:56:36

420

作者：腾讯混元团队

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2604.14268v1 项目链接：https://3d-models.hunyuan.tencent.com/world/ GitHub：https://github.com/Tencent-Hunyuan/HY-World-2.0 试用链接：https://3d.hunyuan.tencent.com/sceneTo3D

亮点直击

HY-World 2.0，一个多模态世界模型框架，它将3D世界生成与重建无缝统一。
支持文本提示、单视图图像、多视图图像和视频等多样化输入模态，生成高保真、可导航的3D高斯辐射场（3DGS）场景。
引入了一系列关键创新，包括 HY-Pano 2.0（全景生成）、WorldNav（轨迹规划）、WorldStereo 2.0（世界扩展）和 WorldMirror 2.0（世界构成及重建），以提升全景保真度、实现3D场景理解和规划、并增强视图生成及预测能力。
推出了 WorldLens，一个高性能的3DGS渲染平台，支持交互式探索和角色支持。
在开源方法中取得了最先进的性能，与闭源模型 Marble 相比也具有竞争力，并发布了所有模型权重、代码和技术细节以促进可复现性。

HY-World 2.0的多功能应用

总结速览

解决的问题

当前3D世界建模领域普遍存在生成与重建任务的二元分离，现有解决方案通常专注于其中一个领域，导致生成方法难以保持严格的重建精度，而重建方法缺乏生成能力以幻化未见区域。
缺乏一个全面的、多模态的开源基础世界模型来弥合生成与重建之间的鸿沟。
现有 HY-World 1.0 版本在全景保真度、3D场景理解和规划以及视图生成一致性方面存在局限。

提出的方案

引入了 HY-World 2.0，首个开源、系统化的多模态世界模型，通过统一的离线3D世界模型范式，无缝整合了“生成”和“重建”两大功能。
该框架能够适应文本、单视图图像、多视图图像和视频等多种输入模态，并根据可用条件动态调整其行为。
设计了一个新颖的四阶段pipeline来驱动世界生成，并升级了前馈3D重建组件以支持世界重建。

应用的技术

核心建模: 3D高斯辐射场（3DGS）用于场景表示和渲染。
全景生成: HY-Pano 2.0，采用多模态扩散 Transformer (MMDiT) 和循环填充与像素混合策略。
轨迹规划: WorldNav，基于 NavMesh、Dijkstra 算法以及五种启发式轨迹模式（常规、环绕、重建感知、漫游、空中）。
世界扩展: WorldStereo 2.0，采用 Keyframe-VAE 和相机引导视频扩散模型 (VDMs)，并结合全局几何记忆 (GGM) 和空间立体记忆 (SSM++) 机制，通过分布匹配蒸馏 (DMD) 进行加速。
世界重建: WorldMirror 2.0，采用统一的前馈Transformer骨干网络和任务特定的 DPT 解码器头，引入了归一化位置编码、深度到法线的损失、深度掩码预测头、序列并行、BF16混合精度和FSDP等优化策略。
场景优化与网格提取: 基于截断符号距离函数 (TSDF) 体和行进立方体算法提取网格。

达到的效果

在多个基准测试中，HY-World 2.0 的性能超越了现有开源方法，并与闭源模型 Marble 的结果相媲美。
生成了高保真、可导航的3D高斯辐射场场景，其视觉质量、几何一致性和探索能力显著提升。
实现了从文本、单视图图像、多视图图像和视频等多样化输入生成和重建3D世界的能力。
WorldNav 轨迹规划显著提升了场景完整性和细节覆盖。
WorldStereo 2.0 显著提高了相机控制精度和多轨迹一致性。
WorldMirror 2.0 在点图重建、相机姿态、深度和法线估计以及新视图合成方面达到了最先进水平，并展现了出色的多分辨率泛化能力和推理效率。
生成的3D世界支持实时碰撞检测和物理反馈，为游戏、虚拟现实和具身人工智能等下游应用奠定了基础。
项目代码、模型权重和技术细节已全部开源，促进了研究的可复现性。

架构方法

在如下图2所示的HY-World 2.0总览中，将其多模态世界模型介绍为一个四阶段pipeline，模拟了理解、合成和重建世界的过程。具体而言，该pipeline始于全景生成，将任意文本或图像输入转换为高保真的360°世界初始化。随后，进行精细的轨迹规划，以解析和理解初始化的世界，并推导出最优且信息丰富的观察路径。沿着这些规划的路线，生成性的世界扩展利用记忆更新机制，确保在生成的关键帧中实现精确的相机控制和多视图一致性。最后，通过将这些生成的序列输入到WorldMirror 2.0进行鲁棒的3D重建，并辅以量身定制的3DGS优化，从而实现沉浸式3D世界的世界构成。

世界生成阶段一：全景生成

全景图能从一个固定视点捕捉完整的360° × 180°视场角（FoV），提供整个场景的全面且信息丰富的表示。与仅提供有限物理世界视图的标准透视图像不同，360°全景图保留了全局空间上下文和复杂的语义关系。因此，这种整体表示正日益被认为是大规模3D世界生成的基础，为连贯的视点合成和沉浸式虚拟探索提供了必要的空间一致性。

在本阶段，本文提出了HY-Pano 2.0，旨在从多模态条件（包括文本和单视图图像）合成高保真全景图。为实现这一目标，本文从两个正交维度优化了生成pipeline：（1）实施了一个先进的数据策展pipeline；（2）引入了一个专用的360°生成模型，该模型以无几何方式隐式学习透视输入与全景目标之间的空间映射。

为了构建高保真全景合成的坚实基础，本文的数据策展pipeline在HY-World 1.0的既定框架上进行了扩展，同时显著增加了训练数据的丰富性和多样性。具体而言，本文升级后的数据集整合了两个主要数据源：（1）真实世界捕捉：包含了大量的、高分辨率的真实世界全景图，以使模型具备真实的照明、复杂的纹理和自然的结构先验。（2）合成资产：利用了通过虚幻引擎（UE）等高端引擎渲染的大规模合成环境数据集。这些资产提供了精确的几何标签和多样化、富有想象力的场景配置，这些在野外很难获得。为确保数据完整性，本文实施了严格的数据过滤阶段，以消除低质量样本，特别是那些表现出明显拼接伪影或暴露了捕捉设备（例如全景相机）的样本。这种混合数据策略有效拓宽了数据集的语义分布，并缓解了合成与真实世界分布之间的领域差距，使模型能够在复杂的室内和室外环境中稳健泛化。

为实现从透视输入到高保真全景图的合成，本文超越了依赖显式几何扭曲的传统方法，这是HY-World 1.0中曾采用的范式。传统的pipeline通常需要精确的相机内参（例如焦距和视场角）来执行透视与等距柱状投影（ERP）域之间的空间对齐。然而，此类元数据在真实世界场景中往往不可用或不准确。这个瓶颈固有地限制了HY-World 1.0框架的灵活性，并经常导致明显的投影畸变。为解决此问题，本文采用了一种由多模态扩散 Transformer (MMDiT) 驱动的隐式、自适应映射策略，如下图3所示。MMDiT不依赖显式相机先验，而是在统一的潜在空间中处理条件输入和全景目标。通过将条件图像潜在与全景噪声潜在拼接成一个统一的 token 序列，MMDiT 利用其自注意力机制自主学习底层的透视到ERP转换。这种纯数据驱动的方法使网络能够直接在特征空间内建立空间对应关系，使其能够灵活地幻化缺失的环境细节并保持全局结构一致性，即使在未校准和多样化的输入图像下也能实现。

ERP生成中的一个常见挑战是左右边缘的不连续性。为消除这些边界伪影，本文引入了一种结合了循环填充和像素混合的精修策略，如上图3右侧所示。在潜在层面，本文对潜在特征应用循环填充，在去噪过程中强制执行周期性边界条件。填充后的潜在被解码到像素空间，其中沿等距柱状边缘采用线性像素混合策略。这种组合协调有效平滑了360°环绕过渡，确保了完美无缝且结构连贯的全景输出。

世界生成阶段二：轨迹规划

任务描述。 在高保真全景图（第3节）合成之后，接下来的目标是推导探索轨迹，以最大化可导航空间的覆盖范围。为将其与即将到来的世界扩展阶段连接起来，本文引入了WorldNav，一个全面的轨迹规划策略。WorldNav不仅生成多样化的相机路径以确保广泛的视点覆盖，还将其与精确的文本指令配对，从而为下游生成过程提供明确指导。

给定全景网格、NavMesh和3D语义地标，本文为WorldNav设计了五种启发式轨迹模式。这些轨迹从全景图的中心开始，旨在全面覆盖多样化的视点，同时确保无碰撞移动，如如下图5所示。

常规轨迹。 本文采用常规轨迹来普遍扩展全景空间固定原点之外的视觉覆盖范围，如上图5(a)所示。
环绕轨迹。 为方便场景生成过程中前景的视觉质量，本文设计了环绕最显著物体的轨迹，如如下图5(b)所示。
重建感知轨迹。 为弥补后续3D重建的空白，本文引入了迭代重建感知轨迹，专门针对观察不足的区域，如上图5(c)所示。
漫游轨迹。 为最大化场景覆盖并触及场景的环境边界，本文提出了漫游轨迹，如上图5(d)所示。
空中轨迹。 最后，本文引入辅助空中轨迹以消除剩余的盲视点，如上图5(e)所示。

WorldNav的轨迹详细信息如如下表1所示。

世界生成阶段三：世界扩展

任务描述。 在高质量全景图和广覆盖相机轨迹的基础上，本文提出了WorldStereo 2.0。作为WorldStereo 1.0 [62] 的升级版，它利用相机引导的视频生成来合成大量新颖视图，以实现世界扩展。如下图6所示，训练过程包含三个阶段，分别旨在实现相机控制、基于记忆的一致性和高效推理。

WorldStereo 2.0 概述。 WorldStereo 2.0 通过在关键帧潜在空间中，利用几何感知的记忆，实现一致的多轨迹视频生成，从而连接了相机条件视频扩散模型 (VDMs) 和3D场景重建，如如下表2所示并如下图7所示。具体而言，本文首先重新审视了标准 Video-VAE 的局限性，其时空压缩常常导致伪影，从而降低下游重建质量——取而代之的是，本文在关键帧潜在空间中构建了 WorldStereo 2.0，并通过精确的相机控制来保留高频细节。这通过一种新颖的 Keyframe-VAE 实现，如如下图9所示。

显式相机控制。 遵循 [8, 62]，WorldStereo 2.0 基于预训练的视频 DiT 构建，并集成了从头开始训练的轻量级基于 Transformer 的相机适配器，如上图7(b)所示。形式上，WorldStereo 2.0 融合了相机 Plücker 射线和点云作为互补的相机引导，以实现后续3D重建的显式和精确相机控制。在域适应阶段，本文仅使用从参考视图提取的点云（N ≤ HW，经过浮点过滤后），而不是全景点云。本文将其扭曲到每个目标视图以获得，表示为：

其中和分别表示目标视图的相机到世界坐标系矩阵和内参矩阵；是在像素处对参考视图估计的单目深度，而是齐次像素坐标。

中间训练：记忆机制。全局几何记忆 (GGM) 将扩展点云渲染成视频，作为全局3D先验，以生成多个一致的视频，如如下图7(b)所示。特别是在全景场景中，GGM 允许 WorldStereo 2.0 内化360°环境结构，显著提高几何一致性。本文使用通过扩展的全局点云渲染的视频来微调 WorldStereo 2.0，该点云超出了参考点，表示为：

其中表示从个新视图中随机采样的附加点云，如下图10(a)所示。

改进的空间立体记忆 (SSM++)。 在 WorldStereo 2.0 中，本文通过 SSM++ 改进了此设计，保留了水平检索拼接的核心概念，同时引入了显著改进。首先，本文摒弃了 WorldStereo 中使用的独立记忆分支，而是将检索到的关键帧直接整合到主 DiT 分支中（如上图7a所示）。其次，如下图11所示，本文修改了旋转位置嵌入 (RoPE)以适应这种集成。每个目标视图都与其检索到的对应视图水平拼接，共享相同的时间索引。最后，为了增强灵活性，本文将 WorldStereo 的显式点图引导替换为隐式相机嵌入。形式上，本文将所有输入相机姿态归一化为统一的世界坐标，并将其表示为7维向量（四元数和平移）。然后这些向量由一个3层 MLP 编码为相机 token，通过零初始化添加到目标和检索到的关键帧特征中，以提供几何感知。

记忆库和检索策略。 在中间训练阶段，本文采用了不同的检索策略来适应不同的数据特性，如上图10(b)所示。本文采用时间错位检索来处理现有的多视图数据。此外，本文使用 UE 构建了一个合成数据集，其中每个资产具有多个轨迹。对于这个合成数据，本文采用多轨迹检索，根据3D视场角相似性从替代轨迹中选择最相关的帧。

记忆增强。 为了减轻由于不完善的点云和检索生成而可能产生的误差累积，本文在中间训练阶段采用了全面的数据增强来提高记忆组件的鲁棒性。

后期训练：模型蒸馏。 在后期蒸馏阶段，本文应用修改后的分布匹配蒸馏 (DMD)来加速 WorldStereo 2.0 的推理。DMD 扩展了变分分数蒸馏 (VSD)的思想，通过从冻结的真实分数函数和可训练的伪分数函数之间的差异构建的近似 Kullback-Liebler (KL) 散度来蒸馏少步骤扩散学生。DMD 的更新梯度可以写为：

其中表示给定随机高斯噪声和的学生生成，而表示前向扩散过程。

世界重建：WorldMirror 2.0

在详细介绍最终的世界构成阶段之前，本文首先介绍了升级后的前馈3D重建模型 WorldMirror 2.0，它作为2D关键帧生成与3D世界构成之间的关键桥梁。世界生成旨在从稀疏输入（例如单视图图像或文本）合成可探索的3D世界，而世界重建则侧重于从密集的2D视觉观测（即多视图图像或视频）中恢复几何精确的3D空间关系。在 HY-World 2.0 中，本文在 WorldMirror的基础上构建了这种重建能力，它是一个用于全面3D几何预测的统一前馈模型。本文解决了 WorldMirror 1.0 的三个关键局限性：（1）在非训练分辨率下的性能下降，（2）由于缺乏显式深度-法线耦合导致的深度几何一致性有限，以及（3）扩展到大量视图时内存和延迟过高。这些问题分别通过模型架构、训练数据和监督以及训练策略（第6.5节）的改进得以解决。如下图12所示为整体模型架构，如下表3总结了 WorldMirror 1.0 和 WorldMirror 2.0 之间的主要区别。

回顾 WorldMirror 1.0。 WorldMirror是一个用于全面3D几何预测的统一前馈模型（参见如上图12）。其核心设计是“任意模态 token 化”，它将所有输入模态，包括图像、相机姿态、内参和深度图，编码为统一序列中的 token。

模型改进。 如上表3总结所示，本文在 WorldMirror 2.0 中引入了三项关键的模型级改进：用于灵活分辨率推理的归一化位置编码、通过深度到法线损失对深度进行显式基于法线的监督，以及一个专用的深度掩码预测头，用于稳健处理无效像素。深度到法线损失定义为：

其中是预测的深度图，而和分别是预测法线图的 x 和 y 分量。深度掩码预测头输出每个像素的有效性 logit ，并使用二元交叉熵损失进行训练：

其中表示地面真实有效性标签，是具有已知有效性的像素集合。

数据改进。 本文通过两项关键的补充扩展了 WorldMirror 2.0 的训练数据。首先，本文整合了来自虚幻引擎场景的高质量合成渲染，这些渲染提供了多样化室内外环境中的像素级精确地面真实几何。其次，本文对真实世界数据集采用了仅法线的伪标签增强策略。

推理效率改进。 WorldMirror 2.0 引入了三种互补的加速策略，以实现可扩展的多 GPU 部署。首先，本文在两个粒度上采用了序列并行：用于 Transformer 骨干网络的 token 级并行以及用于 DPT 解码器头部的帧级并行。其次，遵循 VGGT-X [65]，本文通过将大多数参数转换为 BF16，同时将一小部分精度关键模块保留在 FP32 中，应用了选择性混合精度推理。第三，本文采用完全分片数据并行 (FSDP) 将模型参数分片到多个 GPU 上。

训练策略改进。基于 token 的动态批量大小调整。 本文固定了每个 GPU 的最大 token 预算（例如25,000个 token）。在每次迭代中，本文首先对每个图像分辨率（可配置范围内的像素数量，例如50K-500K）和宽高比进行采样，然后计算每个图像的 token 数量。最大视图数量然后推导为：

其中是架构视图计数上限。实际视图计数从中均匀采样。当采样的视图计数小于时，多个样本被打包到同一个 GPU 以填充 token 预算，确保每个 GPU 的 token 计数严格受限：

其中是一个 GPU 上的图像总数。多阶段课程学习。 在 WorldMirror 2.0 中，本文将几何训练进一步分解为两个子阶段，从而产生了一个三阶段pipeline：阶段1使用原生标注训练所有几何头部；阶段2引入深度到法线损失，同时显著增加合成数据的比例；阶段3冻结骨干网络和所有几何头部，仅训练从深度头部权重初始化的3DGS头部。

世界生成阶段四：世界构成

任务描述。 本阶段的输入定义为一个元组，包含初始全景图（第3节）、其对应的全景点云，以及基于预定义轨迹（第4节）由 WordExpand生成的所有个新关键帧。世界构成的目标是将这些输入整合到一个统一的、可导航的3D表示中。这个过程包括两个顺序步骤：1）点云扩展：通过使用生成的关键帧扩展来构建一个全局对齐的点云。2）3D场景优化：训练一个以扩展点云初始化的3DGS，以合成完整的高保真3D世界。

通过 WorldMirror 2.0 进行重建。 本文首先从完全生成的帧序列中下采样一个帧的子集。随后，应用 WorldMirror 2.0 估算此子集的每帧深度图和法线图，并以其各自的相机姿态作为几何先验条件：

其中表示 WorldMirror 2.0 网络。

深度对齐。 本文提出了一种鲁棒的对齐策略，利用全景点云作为几何指导，将 WorldMirror 深度修正为对齐深度图。形式上，本文从的视点渲染以获取稀疏引导深度，如下图14所示。对齐过程被公式化为：

其中表示视图的可靠性掩码，指示应该强制执行对齐的有效重叠区域。本文将定义为多个经验掩码的交集：

3D 场景优化。增长和稠密化。 本文将初始点云分割为天空和场景子集，分别表示为和。标准增长策略仅应用于，从而在纹理丰富的区域实现必要的稠密化，同时严格防止天空产生浮点伪影。本文整合了 MaskGaussian。具体而言，对于第个高斯点，通过 Gumbel-Softmax从可学习的掩码 logits 中采样一个二值掩码。然后将此掩码通过掩码渲染方案整合到基于瓦片的栅格化器中。对于给定像素，渲染颜色和透射率演变被重新公式化为：

其中表示不透明度，是按深度顺序累积的第个高斯点的透射率。为鼓励稀疏性，平方损失对平均掩码激活进行正则化：

优化与损失。 对于第个训练视图，3DGS 渲染器生成一个 RGB 图像和一个深度图。对应的表面法线通过的归一化空间梯度解析得出。光度目标定义为：

其中地面真实图像从全景图和生成的关键帧分割的视图并集中采样。为了强制几何一致性，本文引入了一个几何损失：

其中表示像素级余弦相似度。因此，总的3DGS训练目标由以下公式给出：

网格提取。 为了支持下游应用，如碰撞检测和物理模拟，本文进一步从优化的3DGS表示中提取网格。具体而言，本文从所有训练视图渲染RGB图像和深度图，并将其整合到截断符号距离函数（TSDF）体中。最终网格通过行进立方体算法 [46] 提取。

实验总结

结果：多模态世界创建

HY-Pano 2.0 的结果与分析

本文将HY-Pano 2.0的全景生成与文本到全景（T2P）和图像到全景（I2P）任务中的几种最先进方法进行了定性和定量比较。对于T2P，本文与DiT360、Matrix3D 和 HY-World 1.0 进行了比较。对于I2P，本文与CubeDiff、GenEx和 HY-World 1.0进行了比较。

定量结果。 如下表4展示了T2P和I2P任务的定量比较。使用多个互补指标评估生成的全景图。CLIP-T (T2P) 和 CLIP-I (I2P) 分别衡量文本-图像和图像-图像对齐。Q-Align根据与人类评分对齐的大型多模态模型提供感知质量（Qual）和美学（Aes）得分。如下表4所示，HY-Pano 2.0 在两项任务的大多数指标上均取得了最佳分数。这些结果表明，与以往方法相比，HY-Pano 2.0 对输入信号（文本提示或参考图像）的遵循性更强，精细细节质量更高，美学得分也得到提升。

定性结果。 首先在如下图16中展示了一些以图像和文本输入为条件生成的全景图。然后，在如下图17和如下图18中分别展示了T2P和I2P的定性比较。与现有方法相比，HY-Pano 2.0 生成的全景图具有更结构连贯的布局，在完整的360°视场角中表现出合理的空间排列和一致的几何结构。值得注意的是，它生成了更精细的细节，包括更锐利的纹理、更清晰的物体边界和更丰富的高频内容，从而产生了更真实、更具视觉吸引力的全景图。

WorldNav 的结果与分析

本文在如下图19中进行了定性比较，以直观地展示每个轨迹规划组件的必要性。仅在全景视图上训练3DGS（如下图19b）不可避免地会导致大量的几何空洞和较差的渲染质量。通过顺序整合来自不同轨迹的视图，场景完整性逐步提高。从单视图生成的3D重建点云结果如如下表5所示，该表评估了多种方法在Tanks-and-Temples和MipNeRF360数据集上的点云精度、召回率、F1-分数和AUC，其中WorldStereo 2.0及其DMD版本在大多数指标上表现优异。WorldNav 的轨迹细节如如下表1所示，该表概述了常规、环绕、重建感知、漫游和空中五种轨迹模式的最大数量及其特性。

WorldStereo 2.0 的结果与分析

相机控制能力的结果。 本文在如下表6中定量评估了WorldStereo 2.0的相机控制能力，同时在如下表7中进行了消融研究。这两项评估均使用了从 [15] 中选取的100张具有挑战性轨迹的域外图像。WorldStereo 2.0 在所有相机指标上均以最低错误率优于所有基于视频的竞争对手。此外，本文在如下图8中提供了定性比较，进一步支持了这一结论，该图展示了Keyframe-VAE在重建和新视图生成方面比Video-VAE具有更好的外观一致性和保真度。

记忆训练和蒸馏的消融研究。 本文在如上表8中全面评估了记忆训练和后期蒸馏。整合 GGM 和 SSM++（配置 A）显著提高了光度质量和多轨迹一致性。最后，在应用 DMD 后期蒸馏（配置 G）后，模型不仅保持了可比的相机控制能力，甚至略微改善了光度和一致性指标。

世界构成的结果与分析

重建与对齐。 尽管前文证实了 WorldMirror 2.0 在已知相机姿态下点云扩展的有效性，但本文在如下图20中进一步将整体构成pipeline与同时期的世界重建方法 video2world 进行了评估。为确保公平比较，两种方法均在 WorldStereo 2.0 生成的300视图图像上进行评估。如如下图20所示，尽管 video2world 通过特征匹配的迭代最近点（ICP）生成了令人印象深刻的点云，但该过程本质上难以并行化，导致每个场景的计算开销高达约5小时。相比之下，本文的轻量级线性对齐充分利用了相机姿态先验，在不到2分钟内实现了可比的重建质量。

高斯辐射场。 本文对所提出的3DGSpipeline的每个组件在10个场景中进行了消融研究，并在20视图验证集上进行了评估（如下表9）。整合 MaskGaussian 解决了这一权衡问题：低频区域中冗余的高斯点被剪枝，数量减少了73.7%（从5.254M减少到1.383M），而PSNR仅下降了-0.14 dB。

完整结果与 Marble 的比较

可探索和交互式世界。 如下图21所示，HY-World 2.0 产生了全面的多模态3D资产，包括全景图、用于3DGS初始化的对齐点云、高保真3DGS渲染以及提取的几何网格。更重要的是，这些丰富的3D表示超越了静态可视化，成为可探索和交互式3D世界的基础环境（参见如下图22），该图展示了用户在HY-World 2.0生成的3D世界中进行交互式探索，包括虚拟代理导航和实时碰撞检测。

与最先进技术比较。 本文将方法与闭源商业世界模型 Marble进行了比较。比较在两种设置下进行：使用相同的全景输入（如下图23）和使用相同的透视条件（如下图24）。相比之下，本文的方法获得了严格遵循所提供条件的高保真结果。此外，本文的生成在细节保留和新视图的几何一致性方面优于 Marble。

运行时分析。 在 NVIDIA H20 GPU 上评估了 HY-World 2.0 的整体运行时，如下表10所示，该表详细列出了全景生成、轨迹规划、世界扩展、重建与对齐以及3DGS等各个阶段的时间开销。通过整合系统化的效率优化，生成完整3D世界的端到端pipeline得到加速，仅需10分钟。

从多视图图像或视频重建世界

本文评估了 WorldMirror 2.0 作为独立的重建基础模型，在涵盖点图重建（如下表11）、相机姿态估计、深度估计、新视图合成（如下表12）和表面法线估计（如下表13）的综合基准上。所有任务均在三种推理分辨率下进行评估，即低（189×259）、中（378×518，WorldMirror 1.0 的默认设置）和高（756×1036），以验证通过归一化位置编码实现的分辨率泛化能力。

WorldMirror 2.0 的结果与分析

点图重建。 本文在场景级数据集（7-Scenes, NRGBD）和对象级数据集（DTU）上评估了点图重建，遵循 [69] 的相同序列映射。如如下表11所示，WorldMirror 1.0 在中等分辨率下已超越所有基线。WorldMirror 2.0 在每个分辨率下均有进一步改进。整合几何先验带来了额外的增益。

相机姿态、深度和新视图合成。 在如上表12中，本文联合报告了 RealEstate10K 上的相机姿态估计和深度估计，以及 RealEstate10K 和 DL3DV 上平均的新视图合成。对于相机姿态，WorldMirror 2.0 在每个分辨率下都提高了 AUC@30 优于 WorldMirror 1.0。对于深度，WorldMirror 2.0 持续降低 AbsRel。对于新视图合成，WorldMirror 2.0 在不同分辨率下保持了稳定的性能。

表面法线估计。 遵循 [3]，本文在 ScanNet、NYUv2 和 iBims-1上评估了表面法线估计。如下表13所示，WorldMirror 2.0 在中等分辨率下在所有三个基准上都取得了最佳结果，超越了专用单任务方法。

定性结果。 本文在如下图25和如下图26中展示了 WorldMirror 1.0 和 2.0 之间的视觉比较。如下图25所示，WorldMirror 2.0 生成了更锐利、几何更连贯的表面法线，该图直观地展示了WorldMirror 2.0在表面法线和重建点云方面比WorldMirror 1.0具有更精细的结构细节和更高的一致性。如下图26进一步检查了多分辨率鲁棒性，该图显示WorldMirror 1.0在高分辨率下出现严重的几何退化，而WorldMirror 2.0在所有测试分辨率下都保持了稳定和连贯的重建。

推理时评估

几何先验注入。 WorldMirror 的一个显著特点是其灵活整合几何先验的能力。本文在高分辨率下（如下图27）比较了 WorldMirror 1.0 和 2.0 与先验引导方法 Pow3R 和 MapAnything在不同先验条件下的表现。WorldMirror 2.0 始终优于所有替代方案，在相机条件和所有先验设置下表现出最大改进。

推理效率。 本文对前文中引入的 WorldMirror 2.0 推理效率优化进行了基准测试。如下表14报告了在 NVIDIA H20 GPU 上，518×378 分辨率下不同视图数量的每 GPU 内存消耗（GB）和挂钟推理时间（秒）。SP、BF16 和 FSDP 在4个 GPU 上的完整组合实现了最佳的权衡。

总结

HY-World 2.0，这是一个全面的多模态世界模型框架，弥合了3D世界生成与重建之间长期存在的鸿沟。通过动态适应多样化的输入模态——从稀疏文本和单幅图像到密集的S多视图视频——本文的框架为离线3D世界建模建立了统一的范式。为实现这一目标，本文引入了一个四阶段pipeline。本文升级了全景生成（HY-Pano 2.0）以实现高保真世界初始化，并设计了语义感知的轨迹规划（WorldNav）以指导场景探索的最佳、无碰撞路线。此外，本文通过在具有空间一致性记忆的关键帧潜在空间中操作，显著升级了生成性世界扩展（WorldStereo 2.0）。最后，通过增强的3D重建基础（WorldMirror 2.0）进行世界构成，以生成几何精确且可导航的3DGS资产。本文还提出了一个高性能的3DGS渲染平台（WorldLens），以实现3D世界的交互式探索，并支持角色和光照控制。广泛的评估表明，HY-World 2.0 在开源方法中取得了最先进的性能，其视觉质量、几何一致性和探索能力与领先的闭源商业模型极具竞争力。