暂无搜索历史
论文地址:https://arxiv.org/abs/2510.02253 项目代码:https://github.com/Edennnnnnnnnn/Drag...
在实时数字人赛道,开发者们曾长期面临一个困扰:追求高画质就需要具备昂贵的 H800 集群,追求低成本就得忍受“面瘫”和画面崩坏。
本文介绍清华大学智能驾驶课题组(iDLab)在 IEEE ITSC 2025(最佳学生论文奖提名)发表的最新研究成果《Distributional Soft A...
作者单位:复旦大学、阶跃星辰、HKU MMLab, University of Queensland
在视觉自回归(AR)模型狂奔的今天,我们似乎已经习惯了将 Tokenizer 和生成器当作完美的黑盒组合。然而,回归事物的本质,我们必须直面一个“房间里的大象”...
SkyReels-V4 能够生成最高达 1080p、32 FPS、15 秒的带同步音频的电影级多镜头视频。在 Artificial Analysis 的文本到视...
文章链接: https://arxiv.org/abs/2509.21278 git链接: https://github.com/ZhumingLian/SH...
很多AI 海报生成默认从一句 prompt 出发(Text-to-Poster)。但在真实设计流程里,更常见的起点其实是一张参考图/旧海报/产品主视觉:你希望在...
论文链接:https://openreview.net/forum?id=JGkZgEEjiM
解决了当前DLM受限于AR遗留架构和优化框架,导致无法突破“因果瓶颈”(Causal Bottleneck)、推理效率低、缺乏全局结构化思维以及难以实现复杂逻辑...
论文链接:https://arxiv.org/abs/2601.11096v1n 工程链接:https://lucaria-academy.github.io/...
图2 视频增强现实的整体框架。给定文本提示时,视频帧首先通过多尺度因果3D分词器压缩成一系列时空标记。每个帧由多尺度的残差映射表示,这些映射通过带有分块因果掩蔽...
图 1 Klear,这是一个统一的音视频生成框架,它可以在联合和单模态设置中提供高保真度、强大的语义和时间对齐以及可靠的指令遵循,并具有强大的 OOD 泛化能力...
论文链接:https://arxiv.org/abs/2601.03193 代码链接:https://github.com/Hungryyan1/UniCorn...
论文链接:https://arxiv.org/pdf/2512.23222 项目链接:https://kebii.github.io/UniMAGE/
论文链接:https://arxiv.org/abs/2601.02358 代码链接:https://github.com/SOTAMak1r/VINO-cod...
论文链接:https://arxiv.org/pdf/2512.25075 项目链接:https://zheninghuang.github.io/Space-...
文章链接:https://arxiv.org/pdf/2512.22525 项目链接:https://github.com/dvlab-research/Dr...
论文链接:https://arxiv.org/pdf/2512.23379 项目链接:https://soul-ailab.github.io/soulx-li...
图1:超越了mask-inpainting,X-Dub将视觉配音重新定义为丰富的上下文、全参照的视频对视频剪辑,即使在有遮挡和动态光照的挑战场景中,也能实现精准...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市