首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >实验室3篇论文被CVPR 2026录用

实验室3篇论文被CVPR 2026录用

作者头像
Amusi
发布2026-04-22 08:15:27
发布2026-04-22 08:15:27
1530
举报
文章被收录于专栏:CVerCVer

转载自:THUSIGSICLAB

智能计算实验室

科研成果

CVPR2026

CVPR(Conference on Computer Vision and Pattern Recognition),全称是国际计算机视觉与模式识别会议,是计算机视觉领域全球最具有影响力、内容最全面的顶级学术会议,它与ICCV和ECCV并称为计算机视觉领域的三大顶会,同时被中国计算机学会(CCF)认定为A类学术会议。

近日CVPR 2026公布的论文录取结果,在16092份的有效投稿中,只有4090篇被录用,录取率为25.42%。本课题组共有3篇论文被CVPR 2026录用,以下为录取论文的简要介绍。

01

论文题目:Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

论文作者:陈楚彬,胡素婕,黄妮莎,方承煜,李秀

作者单位:清华大学,阿里巴巴

近年来,通过强化学习(RLHF)使文本到图像(T2I)模型对齐人类偏好取得了重大进展 。然而,模型在过度优化奖励分数时常陷入“偏好模式坍塌”(PMC),即生成风格单一、特征高度同质化的高分图像,严重破坏了生成多样性 。这种现象主要源于奖励模型固有的偏见,且现有研究缺乏对多样性的有效量化 。针对此痛点,本文提出了一项名为“定向解耦对齐”(D2-Align)的新型优化框架 。该方法首先在冻结生成器的情况下,于奖励模型的连续嵌入空间中学习一个定向校正向量 。随后,利用该向量在优化过程中修正奖励信号,从而有效防止模型陷入特定的坍塌模式 。此外,本文还构建了专门评估生成多样性的新型多维度基准测试DivGenBench广泛的实验表明,D2-Align成功打破了人类偏好与多样性之间的权衡限制,在保持卓越生成质量与文本对齐度的同时,显著保留了生成多样性,实现了更真实的人类偏好对齐。

02

论文题目:DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO

论文作者:刘恒霖,黄慧娟,王晶,刘畅,李秀,季向阳

作者单位:清华大学,快手可灵,中山大学

强化学习 (RL),特别是GRPO (Group Relative Policy Optimization),通过比较同组内生成图像的相对表现,显著提升了图像生成质量。然而,在训练后期,模型倾向于产生同质化的输出,缺乏创造性和视觉多样性,限制了模型的应用场景。这一问题可以从奖励建模生成动态两个角度进行分析。首先,传统的GRPO依赖单一样本质量作为奖励信号,驱使模型收敛于少数高奖励的生成模式,而忽视了分布层面的多样性。其次,常规的GRPO正则化忽略了早期去噪在保持多样性中的主导作用,导致正则化预算分配不当,限制了质量与多样性之间的权衡空间。基于这些观察,我们重新从奖励建模生成动态两方面审视多样性退化问题。在奖励层面,我们提出了一种基于语义分组的分布级创造力奖励机制。具体而言,通过对同一描述生成样本进行谱聚类构建分布级表征,并根据分组规模自适应分配探索性奖励,以鼓励发现新颖的视觉模式。在生成层面,我们引入了结构感知正则化,在强化早期阶段约束以保持多样性的同时,不影响奖励优化的效率。实验表明,在匹配的质量分数下,我们的方法将语义多样性提升了13%∼18%,为基于GRPO的图像生成建立了质量与多样性之间的新帕累托前沿。

03

论文题目:MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds

论文作者:吴相佐,任程威,周俊,李秀,刘缘

作者单位:清华大学,香港科技大学

本文提出MVInverse,一种前馈式多视角逆向渲染框架,能从RGB图像序列中直接预测反照率、金属度、粗糙度、漫反射光照及表面法向信息。与忽略跨视角关联的单视角方法和计算成本高昂的多视角优化方法不同,MVInverse通过跨视角交替注意力机制,同时捕捉视角内的光照交互与视角间的材质一致性,在单次前向推理中即可完成场景级理解。既避免了多视角结果不一致的问题,又大幅提升了计算效率。针对真实训练数据稀缺的难题,本文提出了基于一致性的微调策略,利用无标注的真实视频让模型在真实环境中自我优化,进一步增强多视角一致性和泛化鲁棒性。测试结果显示,MVInverse在多视角一致性、材质与法向估计质量、真实场景泛化能力等方面均表现优异。用户只需输入一组多视角RGB图像序列,即可获得高质量、跨视角一致的场景逆向渲染结果,可广泛应用于三维重建、AR/VR内容制作、影视特效等实际场景。

图文 | 课题组团队

编辑 | 吴鑫

审核 | 李老师

本文系学术转载,如有侵权,请联系CVer小助手删文

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档