AI生成未来

文章/答案/技术大牛

发布

LV0

全部文章

AI生图细节崩坏终结者！RefineAnything：多模态区域级精修，文字/Logo/人脸一键修复，背景像素级不变
【导语】 AI生图技术日新月异，但"局部细节崩坏"始终是落地应用的痛点——文字扭曲、Logo变形、手指畸变、细小结构断裂，这些问题在电商海报、广告设计、UI素材...
AI生成未来 12天前2026-04-15 18:48:24
设计、数据、AI生图、架构、模型
眼不见，心不忘！华科&快手联手发布混合记忆新范式：攻克视频世界模型最致命缺陷
论文链接：https://arxiv.org/pdf/2603.25716 项目链接：https://kj-chen666.github.io/Hybrid-M...
AI生成未来 12天前2026-04-15 18:47:38
论文、模型、视频、数据、编码
媲美Nano Banana Pro！南科大&阶跃星辰等开源真实世界图像恢复之王RealRestorer
作者：Yufeng Yang, Xianfang Zeng, Zhangqi Jiang等
 AI生成未来 12天前2026-04-15 18:46:53
模型、数据、开源、迁移、论文
“世界模型”到底是个啥？OpenWorldLib一锤定音：感知+交互+记忆，这才叫理解世界的AI！
本工作提出了 OpenWorldLib 框架，其核心设计包含以下五个功能模块及一个调度中心：
AI生成未来 12天前2026-04-15 18:45:51
音频、框架、模型、视频、数据
文生图的“天花板”被捅破了！Gen-Searcher让AI学会“翻书找答案”：不是背题，是开卷考!
文章链接：https://arxiv.org/abs/2603.28767 项目链接：https://gen-searcher.vercel.app/ 代码链...
AI生成未来 25天前2026-04-02 13:42:34
模型、设计、数据、搜索、工作
复旦大学 × 阶跃星辰开源最新力作PixelSmile：AI 终于实现人脸表情PhotoShop
复旦大学与阶跃星辰最新研究开源，聚焦人脸的细粒度表情编辑，把表情编辑真正做出了 PhotoShop 编辑的感觉！
AI生成未来 25天前2026-04-02 13:41:36
框架、模型、数据、开源、photoshop
短剧革命！港中文&快手发布ShotStream:16帧/秒实时生成电影级多镜头视频，可边拍边改
现有双向架构的多镜头视频生成方法存在两大局限：一是缺乏交互性，需要预先提供所有提示，无法在生成过程中动态调整叙事；二是推理延迟高，难以实现实时生成。
AI生成未来 25天前2026-04-02 13:40:03
缓存、架构、模型、设计、视频
2张显卡即可20FPS流式生成！SoulX-LiveAct开启“小时级”实时数字人交互新时代
项目页：https://soul-ailab.github.io/soulx-liveact/ 代码仓库：https://github.com/Soul-AIL...
AI生成未来 25天前2026-04-02 13:38:42
效率、缓存、动画、模型、视频
视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR
视觉自回归（AR）生成模型在图像生成方面的性能显著落后于扩散模型。研究人员发现其核心瓶颈在于生成器-分词器之间存在不一致性。具体表现为：
AI生成未来 25天前2026-04-02 13:33:16
性能、token、模型、设计、数据
炸裂！单卡实时生成分钟级长视频，北大&字节联合推出14B大模型Helios，速度碾压1.3B
GitHub: https://github.com/PKU-YuanGroup/Helios 项目主页: https://pku-yuangroup.gith...
AI生成未来 25天前2026-04-02 13:29:19
框架、模型、视频、压缩、优化
真“六边形战士”！Capybara把图像视频全打通：一个模型搞定T2I、T2V、I2V！
作者：该工作出自华为小艺香港研究团队，该团队长期聚焦视觉生成、理解与Agent相关领域。
AI生成未来 25天前2026-04-02 13:27:50
视频、capybara、接口、框架、模型
通过强化学习赋能OpenClaw！OpenClaw-RL王炸登场：边聊天边把“全能Agent”给训练了
当前所有部署的 AI 智能体都在不断产生交互数据（动作后的下一状态），但现有的智能体强化学习系统却将这些数据白白丢弃，或仅用作下一轮预测的上下文。这导致了...
AI生成未来 25天前2026-04-02 13:25:51
强化学习、agent、工具、模型、终端
4B参数干翻14B！国产统一多模态“全能战士” InternVL-U开源：理解、生成与编辑迎新高度
开源代码 (GitHub) ：https://github.com/OpenGVLab/InternVL-U
AI生成未来 25天前2026-04-02 13:24:52
设计、数据、开源、架构、模型
图像生成迎来“思考-研究-创造”新范式！Mind-Brush:统一意图分析、多模态搜索和知识推理
文章链接：https://arxiv.org/pdf/2602.01756 Git链接：https://github.com/PicoTrex/Mind-Br...
AI生成未来 25天前2026-04-02 13:23:09
工作流、框架、模型、数学、搜索
ICLR 2026 | DragFlow 让DiT也能“指哪打哪”：基于区域监督的拖拽式图像编辑新SOTA
论文地址：https://arxiv.org/abs/2510.02253 项目代码：https://github.com/Edennnnnnnnnn/Drag...
AI生成未来 2026-03-102026-03-10 11:53:53
设计、拖拽、优化、架构、模型
单卡4090即可实现96FPS流式推理!Soul App开源实时数字人生成模型SoulX-FlashHead
在实时数字人赛道，开发者们曾长期面临一个困扰：追求高画质就需要具备昂贵的 H800 集群，追求低成本就得忍受“面瘫”和画面崩坏。
AI生成未来 2026-03-052026-03-05 15:12:56
app、模型、数据、音频、开源
打破RL“单峰”魔咒！清华提出首个双扩散强化学习框架，重塑自动驾驶复杂决策
本文介绍清华大学智能驾驶课题组（iDLab）在 IEEE ITSC 2025（最佳学生论文奖提名）发表的最新研究成果《Distributional Soft A...
AI生成未来 2026-03-052026-03-05 15:10:13
框架、算法、网络、自动驾驶、强化学习
CVPR 2026｜复旦大学提出OmniLottie：首个端到端多模态矢量动画生成框架！
作者单位：复旦大学、阶跃星辰、HKU MMLab, University of Queensland
AI生成未来 2026-03-052026-03-05 15:08:10
数据、动画、框架、模型、视频
CVPR 2026｜“像素级对齐大师” VA-π: 25分钟微调FID暴降50%
在视觉自回归（AR）模型狂奔的今天，我们似乎已经习惯了将 Tokenizer 和生成器当作完美的黑盒组合。然而，回归事物的本质，我们必须直面一个“房间里的大象”...
AI生成未来 2026-03-052026-03-05 15:01:24
强化学习、框架、模型、数学、优化
好莱坞导演坐不住了！SkyReels-V4发布：首个影院级音视频联合生成/修复/编辑统一框架
SkyReels-V4 能够生成最高达 1080p、32 FPS、15 秒的带同步音频的电影级多镜头视频。在 Artificial Analysis 的文本到视...
AI生成未来 2026-03-052026-03-05 14:58:27
模型、视频、音频、音视频、框架

12 3 4 5 6 7 8 9 下一页

个人简介

暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市
加入社区时间：2025-08-04

个人成就

获得 181 次赞同
文章被阅读 83.1K 次

关注了：1关注者：15

AI生成未来

全部文章

AI生图细节崩坏终结者！RefineAnything：多模态区域级精修，文字/Logo/人脸一键修复，背景像素级不变

眼不见，心不忘！华科&快手联手发布混合记忆新范式：攻克视频世界模型最致命缺陷

媲美Nano Banana Pro！南科大&阶跃星辰等开源真实世界图像恢复之王RealRestorer

“世界模型”到底是个啥？OpenWorldLib一锤定音：感知+交互+记忆，这才叫理解世界的AI！

文生图的“天花板”被捅破了！Gen-Searcher让AI学会“翻书找答案”：不是背题，是开卷考!

复旦大学 × 阶跃星辰开源最新力作PixelSmile：AI 终于实现人脸表情PhotoShop

短剧革命！港中文&快手发布ShotStream:16帧/秒实时生成电影级多镜头视频，可边拍边改

2张显卡即可20FPS流式生成！SoulX-LiveAct开启“小时级”实时数字人交互新时代

视觉AR逆袭！177M效果媲美675M最新SOTA扩散模型，仅需一个“即插即用”的正则化reAR

炸裂！单卡实时生成分钟级长视频，北大&字节联合推出14B大模型Helios，速度碾压1.3B

真“六边形战士”！Capybara把图像视频全打通：一个模型搞定T2I、T2V、I2V！

通过强化学习赋能OpenClaw！OpenClaw-RL王炸登场：边聊天边把“全能Agent”给训练了

4B参数干翻14B！国产统一多模态“全能战士” InternVL-U开源：理解、生成与编辑迎新高度

图像生成迎来“思考-研究-创造”新范式！Mind-Brush:统一意图分析、多模态搜索和知识推理

ICLR 2026 | DragFlow 让DiT也能“指哪打哪”：基于区域监督的拖拽式图像编辑新SOTA

单卡4090即可实现96FPS流式推理!Soul App开源实时数字人生成模型SoulX-FlashHead

打破RL“单峰”魔咒！清华提出首个双扩散强化学习框架，重塑自动驾驶复杂决策

CVPR 2026｜复旦大学提出OmniLottie：首个端到端多模态矢量动画生成框架！

CVPR 2026｜“像素级对齐大师” VA-π: 25分钟微调FID暴降50%

好莱坞导演坐不住了！SkyReels-V4发布：首个影院级音视频联合生成/修复/编辑统一框架

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐