近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D 场景的神经架构 NeRFs,可以根据文字生成 3D 室内场景。 2021 年末时,谷歌通过 Dream Fields 首次展示了 3D AI 生成系统,将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。 苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构,可以根据文字提示创建 3D 场景。 例如,输入“穿过走廊”或“上楼梯”,就可以看到执行这一动作的 3D 场景视频。 Apple GAUDI 是 3D 内饰专家 虽然谷歌致力于使用 Dream Fields 生成单个对象,但将生成 AI 扩展到完全不受约束的 3D 场景仍是一个尚未解决的问题。 虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高,但这也说明了 AI 在图像和视频技术这生成的另一种可能。
计算机生成的全息(CGH)通过对衍射和干涉的数值模拟实现了高空间角度的3D投影。 长期以来,研究人员一直在研究制作全息图的技术,但是,现有的基于物理的方法无法生成具有按像素聚焦控制和精确遮挡的全息图。 训练神经网络通常需要庞大的高质量数据集,而3D全息图以前没有这种数据集。 首先,用于渲染RGB-D图像的3D场景具有很高的复杂度,并且在颜色,几何形状,阴影,纹理和遮挡方面存在很大的差异,以帮助CNN推广到计算机渲染和实际捕获的RGB-D测试中 输入,通过自定义随机场景生成器实现的 实时3D全息技术的应用将会惠及从VR到3D打印的众多系统,研究人员表示,该种新系统可以帮助VR观看者沉浸在更真实的风景中,同时消除长期使用VR带来的眼睛疲劳和其他副作用。 同时,三维全息术还可以促进3D打印技术的发展,该技术比传统的逐层3D打印更快、更精确,因为该项技术允许同时投影整个3D图形。
机器之心专栏 机器之心编辑部 45 秒单张图片变 3D,无需大量 3D 数据和逐物体优化。 3D AI 生成最近发展得如火如荼,不少最新工作都能够从一句话 / 一张图生成高质量的三维模型。 这种方式使得现有的 3D AI 生成方法都非常耗时,譬如 ProlificDreamer 的作者就曾在知乎上表示方法目前的主要局限之一便是生成时间太慢了! 方法 由于 3D 数据的稀缺性,学术界最近的绝大多数 3D AI 生成工作都通过利用 2D 扩散生成模型来指导 3D 表示(如 NeRF)的优化,从而实现 3D 内容生成。 与现有 3D AI 生成方法的比较 研究者表示,得益于 “2D 多视角预测 + 3D 可泛化重建” 的技术路线,One-2-3-45 与现有的 3D AI 生成方法相比,除了推断时间显著降低外,还在输入的多样性 结语 One-2-3-45 提出了 “2D 多视角预测 + 3D 可泛化重建” 这样一项新颖的 3D AI 生成玩法,并在许多方面都展示出了其优越性。
隐藏3D图像的AI生成实验你是否见过那些隐藏着3D图像的自体立体图?就像1990年代的Magic Eye图片,看似嘈杂的重复图案,直到你以特定方式调节视觉焦距才能看到立体效果。 技术实现机制剖析当要求"生成独角兽魔法眼3D立体图像"时,ChatGPT传递给DALL-E3(实际负责图像生成的模型)的描述极其详细:需要包含复杂图案和多样化色彩以确保3D效果突出背景应包含神秘元素以增强深度幻觉独角兽的角和鬃毛应在图案中清晰可辨但 在自主生成场景中,它本质上仍是文本生成器。这些被宣传为"全能AI"的模型,实际更像装满应用的手机:文本生成应用可在特定情况下启动图像生成应用,但它们并非真正意义上的统一程序。 在生成ASCII文字艺术并自行读取时:在新会话中向其发送自生成的ASCII文字时,它识别为"ERROR"对自身创作的ASCII艺术品的识别和评级同样糟糕技术本质揭示生成ASCII艺术和3D图像并非ChatGPT 最后尝试让ChatGPT生成《小王子》风格的隐藏绵羊图像,结果基本失败。这再次证明了当前AI在多模态任务协同处理上的技术局限性。
一、 产品定位与核心亮点 产品定义:腾讯混元生3D是一款基于腾讯自研大模型的AI 3D内容生成平台。 适用于平台大量商品3D化转换,以及客户DIY装修素材的批量生产场景。 平台工具厂商:面向具备丰富网站AI能力及素材工具的平台,作为底层AI能力插件,补充并完善平台的3D素材生成链路。 案例2:Lovart 背景:属于AI技术行业,自身定位为平台工具厂商,拥有丰富的网站AI能力和素材工具,需要进一步拓展3D维度的生成能力。 解决方案:将腾讯混元生3D集成至其平台工具矩阵中。 痛点在于普通用户获取可打印的优质3D模型门槛过高,制约了打印机的使用频次。 解决方案:接入AI 3D内容生成平台能力。 解决方案:应用腾讯混元生3D能力支持其打印生态。 成效:依托提升70%的生产效率,赋能用户快速产出3D打印源文件,形成“AI生成-直接打印”的业务闭环。
前言 今天要给大家分享一个很Nice的 3D 生成工具集—MVEdit! 项目介绍 MVEdit 是一个基于控制的多视角编辑的通用3D扩散适配器,使用现成的2D稳定扩散模型进行3D生成和编辑。 无需繁琐的训练,MVEdit 就能够快速生成高质量的3D物体,并提供全功能的UI界面,包含了诸如text to 3D、image to 3D、3D to 3D文字编辑和材质重构等功能。 生成:利用现成的 2D 稳定扩散模型,MVEdit 能够生成具有高质量纹理和结构的 3D 生成物。 • 顶尖性能:在文本引导的纹理生成和图像到 3D 生成等评估中表现出色。
机器之心报道 编辑:小舟、佳琪 2D 升维成 3D 的过程中,可见部分和不可见部分可以分开建模。 2025 年来了,3D 生成也迎来了新突破。 刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D ,能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。 从单个输入图像,SPAR3D 仅需 0.7 秒即可为每个对象生成高度详细的 3D 网格。 参考链接: https://stability.ai/news/stable-point-aware-3d?
编译 | 若名 出品 | AI科技大本营 用 AI 生成逼真三维物体模型并不像人们以为的那么困难。 近日,在 NeurIPS 2018 会议上接收的论文“ 视觉对象网络:图像生成与分离式的3D表示”中,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)和 Google 的研究人员介绍了能创造出有逼真纹理和形状的一个生成式 “现代深层生成模型学会了合成逼真的图像,”研究人员写道,“但大多数计算模型只专注于生成 2D 图像,而忽略了 3D 世界的美好......这种视角不可避免地限制了它们在许多领域的实际应用,例如合成数据生成 “我们的主要想法是将图像生成过程分解为形状、视点和纹理三种因素,”Google 团队写道,“这种分离式 3D 表示使我们能够在对抗学习框架下从 3D 和 2D 视觉数据集合中学习模型。 与现有的 2D 生成模型相比,我们的模型合成了更逼真的图像,它还可以做到以前的 2D 方法也无法实现的各种 3D 操作。” 近年来,GAN 的研究突飞猛进,特别是在机器视觉领域。
点击我爱计算机视觉标星,更快获取CVML新技术 ---- 3D计算机视觉在医学影像、自动驾驶、机器人深度感知、视频游戏、虚拟和增强现实中有重要应用。 近日,英伟达新开源了kaolin深度学习框架,旨在加速3D计算机视觉的研究。其基于PyTorch实现,包括主流3D视觉数据表示的读取和3D计算机视觉的可微分模块。 将大大降低3D计算机视觉研究的进入门槛。 ? Kaolin 实现了可微分的 rendering, lighting, shading, and view warping,同时也支持常见的损失函数和度量标准,也可于计算后无缝渲染3D结果。 Kaolin支持的3D计算机视觉任务: ?
3D技术中一个特别热门的子领域是3D模型的生成。创造性地组合3D模型,从图像快速生成3D模型,以及为其他机器学习应用程序和模拟创建综合数据,这只是3D模型生成的众多用例中的少数几个。 ? 它是一种通用算法,不会对3D模型的面或占用进行建模,因此无法仅使用PointNet来生成3D-R2N2采用的体素方法将我们都熟悉的2D卷积扩展到3D,并通过自然地从RGB图像生成水密网格。 这种严格的排序使他们能够将基于注意力的序列建模方法应用于生成3D网格,就像BERT或GPT模型对文本所做的一样。 PolyGen的总体目标是双重的:首先为3D模型生成一组可能的顶点(可能由图像,体素或类标签来限制),然后生成一系列的面,一个接一个地连接 顶点在一起,为该模型提供了一个合理的表面。 结论 PolyGen模型描述了用于有条件生成3D网格的强大,高效且灵活的框架。序列生成可以在各种条件和输入类型下完成,范围从图像到体素到简单的类标签,甚至除了起始标记外什么都不做。
Invesalius是专门应用于医学图像3D重建,输入数据必须是一个序列的2D的DICOM图像,可以是CT或者是MRI序列,输出的是3D表面轮廓,该工具就是为生成解剖学的物理模型而做准备的。 3、配置3D表面 3D表面配置可以设置透明度,直接默认值即可,然后下一步。 4、输出结果 直接输出立体图像和相应的3D表面轮廓结果。 ?
最近,3D药物设计的生成模型因其在蛋白质口袋中直接设计配体的潜力而获得了广泛关注。然而,目前的方法通常存在采样时间非常慢或生成分子的化学有效性差的问题。 最后,作者比较了MolFlow与当前方法在生成高质量样本方面的能力,进一步展示了其强大性能。 3D药物设计的生成模型最近因其在蛋白质口袋中直接设计配体的潜力而引起了极大关注。 其他模型尝试训练无条件的3D分子生成器作为起点,尤其是那些应用扩散模型到分子坐标上的模型已经变得特别流行。 现有的3D分子生成器,使用完全连接的消息传递,表现出非常差的扩展性,无法处理更大的分子和更大的模型尺寸。最先进的无条件生成器在采样单批分子时需要数分钟,使其不适合基于RL的微调。 由于现有的3D生成模型在推理时已经需要知道N,因此使用尺度OT时对采样没有额外的限制。
AICompass前沿速览:NanoBananaPro、Gemini3、HunyuanVideo1.5、MetaSAM3D生成AI-Compass致力于构建最全面、最实用、最前沿的AI技术学习和实践生态 开源的3D生成模型SAM3D是MetaAI推出的先进3D重建模型套件,旨在将2D图像转化为精确的3D重建。 技术原理SAM3D采用生成模型(GenerativeModel)架构,实现视觉接地的3D重建。 应用场景虚拟现实(VR)与增强现实(AR):快速生成高保真的3D资产,用于构建沉浸式虚拟环境或将真实世界物体融入数字空间。 SAM3D(Meta的先进3D重建模型)能够从单张图像重建物体和场景的3D模型,提供空间理解和应用新机会。
要使用AI从几张图片生成3D打印模型的STL文件,你可以采用以下几种方法和工具: Genie:Luma AI推出的Genie工具可以将文本或图像转换为3D模型。 CSM(Common Sense Machines,https://3d.csm.ai/register):CSM支持从视频和图像创建3D模型。 你可以上传一张背景干净的正面图像,系统会生成初始3D模型和精修3D模型,支持下载为STL等格式。 SudoAI:SudoAI支持通过文本和图像生成3D模型,主攻游戏领域的模型生成。 上传图片后,系统会生成3D模型,并支持下载为GLB格式。注册送40积分。 Unique3D:清华大学团队开源的Unique3D框架可以从单张图像生成3D模型。 它结合多视图扩散模型和法线扩散模型,能够快速生成具有高保真度和丰富纹理的3D网格,并支持导出为STL格式。 Meshy:Meshy支持文本生成3D和图片生成3D的功能。
机器之心专栏 机器之心编辑部 近日,腾讯宣布推出一项名为 Paint3D 的技术,它能够根据文本或图像输入,为无纹理的 3D 模型生成高分辨率、无光照且多样化的纹理贴图,对任何 3D 物体进行纹理绘制。 在此基础上,Paint3D 利用 3D 数据高质量的无照明纹理作为监督,在 UV 纹理空间上训练无光照扩散模型,生成无光照纹理。 3D 生成领域学者 Yawar Siddiqui 评价道:「终于有一种无内嵌光照的纹理生成方法了,结果非常出色,是我所见过的最好的纹理生成方法!」 ,将这个图像从第一个视角反投影到 3D 网格上,生成该视角的纹理贴图。 实验结果显示,Paint3D 有着更好的纹理生成质量,同时能生成更符合输入条件的纹理结果,实验结果对比如下: 研究人员也在相同的 3D 模型上与当前最佳的纹理生成算法进行比较。
腾讯元宝首发的3D生成应用,利用一张图片即可生成3D角色的技术,是人工智能领域的一个重要创新。这种技术的应用会极大地影响娱乐、游戏开发、虚拟现实和在线购物等行业。 生成3D角色的过程涉及到先进的算法,如生成对抗网络,这些算法能够在训练过程中不断优化,提高生成的3D模型的质量和逼真度。 用户可以快速生成个人3D角色,便于进行360度全方位查看,并可选择分享、转发或者公开。提供保存3D角色模型文件做二次编辑,以及生成3D打印链接,实现从虚拟模型到完整实体的创意体验。 (一)《Protolabs 2024年3D打印趋势报告》显示,3D打印市场正经历显著扩张,将人工智能技术和3D生成结合,可实现更高效、更高质量的内容生成。 (二)此技术的推出会对3D打印和个性化内容创造领域产生积极影响。(三)基于腾讯混元大模型打造的“3D角色梦工厂”,在技术上已具备生成动漫、建筑、游戏道具等类型的3D资产的能力。
3D建模领域未来也将被彻底颠覆! ? 各位同学大家好,又到了我们的「两分钟AI小课堂」。 今天我们来讲一下AI,尤其是DNN在3D建模中的应用。 通过照片和图像来还原3D模型是一个大胆的想法,之前也有许多人做过相关研究。 MIT的研究者们采用了3D-GAN网络来通过图片生成3D模型。 到时候,平面设计师还是3D建模师的工作量都会大大减轻! ? MIT的这篇文章研究3D对象生成的问题。 我们提出一个新颖的框架,即3D生成对抗网络(3D-GAN),通过利用体积卷积网络和生成对抗网络的最新进展,从概率空间生成3D对象。 我们的模型的好处有三: 首先,使用对抗标准,而不是传统的启发式标准,使生成器能够隐含地捕获对象结构并合成高质量的3D对象; 第二,生成器建立从低维概率空间到3D对象空间的映射,使得我们可以在没有参考图像或
AIGC:如何用AI生成惊艳的3D内容引言在这个博客中,我们将探讨如何使用人工智能生成计算机(AIGC)来生成惊艳的3D内容。我们将详细介绍每个步骤,并提供代码示例以帮助您理解。1. 使用AI生成3D内容人工智能可以用于生成3D内容。这通常涉及到使用深度学习模型,如生成对抗网络(GANs)或变分自编码器(VAEs)。 可视化生成的3D内容生成3D内容后,我们需要将其可视化。这可以通过各种3D渲染工具来实现。 # 示例:可视化生成的3D对象import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D# 创建一个3D图形fig = plt.figure()ax = fig.add_subplot(111, projection='3d')# 可视化生成的3D对象ax.scatter(generated_object[:, :, :
这是某机构在其平台上的首个此类模型,对于构建更安全的AI体验——特别是面向社交或用户的应用——是一个有用的工具。 Hunyuan3D 2MiniHunyuan3D 2Mini是其早期3D生成模型的一个更快、更小的版本。 它非常适合游戏资产创建和风格化角色创作,并且已经出现在某社交平台的工作流程中,创作者可以用它以前所未有的速度构建充满活力的3D世界。 CSM-1B与Orpheus-3B这些新的语音模型不仅能说话——它们还能呼吸、停顿和轻笑。凭借内置的类人特性,它们非常适合用于逼真的语音、游戏对话,或者只是让你的AI听起来更有活力。 社区创意Flux、Kling和Wan2.1等模型正在推动病毒式创意的激增——包括动画人物和AI生成的虚拟形象。本期内容到此为止,但请继续关注更多关于模型、实验和值得一试的酷炫想法。
机器之心报道 机器之心编辑部 生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。 生成式 AI 技术在 2D 图像生成领域的成功经验,让人们看到了 AI 在变革 3D 建模这件事上的潜力。 AI 在 3D 生成领域的壁垒,如何打破? 我们聊到的第一个问题是:在 3D 内容的生成上,AI 还面临着哪些挑战? 要理解这个问题,首先需要理解 3D 内容制作的特殊性。 对于这些资深的专业 3D 创作者来说,3D 内容生成也是一项非常复杂且耗时的工作。 此外,3D 数字内容表达的多样性,也为 AI 的学习过程增添了更多挑战。 对于现有的生成式大模型来说,3D 数字内容就像是一种很新的「语言」体系。因此,想让 AI「学会」生成媲美人类水准的 3D 模型,同时保证速度,并不是一件容易的事。