搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI科技大本营的专栏
苹果发布 AI 生成模型 GAUDI，文字生成 3D 场景
近日，苹果 AI 团队发布最新 AI 模型 GAUDI，它是基于 3D 场景的神经架构 NeRFs，可以根据文字生成 3D 室内场景。此前，OpenAI 的 DALL-E 2 或 Google 的 Imagen 和 Parti 等 AI 系统展示了 AI 将文本生成图像的潜力，但内容也仅限于 2D 图像和图形。 2021 年末时，谷歌通过 Dream Fields 首次展示了 3D AI 生成系统，将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。 Apple GAUDI 是 3D 内饰专家虽然谷歌致力于使用 Dream Fields 生成单个对象，但将生成 AI 扩展到完全不受约束的 3D 场景仍是一个尚未解决的问题。虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高，但这也说明了 AI 在图像和视频技术这生成的另一种可能。
1K20编辑于 2022-12-09
来自专栏AI科技大本营的专栏
玩转3D全息图像！AI即刻生成
计算机生成的全息(CGH)通过对衍射和干涉的数值模拟实现了高空间角度的3D投影。长期以来，研究人员一直在研究制作全息图的技术，但是，现有的基于物理的方法无法生成具有按像素聚焦控制和精确遮挡的全息图。首先，用于渲染RGB-D图像的3D场景具有很高的复杂度，并且在颜色，几何形状，阴影，纹理和遮挡方面存在很大的差异，以帮助CNN推广到计算机渲染和实际捕获的RGB-D测试中输入，通过自定义随机场景生成器实现的图:2D和3D全息投影实验演示(图源：Towards real-time photorealistic three-dimensional holography with deep neural networks 在实践中，研究人员比较了三种不同的网络小型化方法：(1)减少卷积层数；(2)使用高交错率；(3)减少每个卷积层的滤波器数量。 360或1,440，而方法(2)的效果不如方法(1)，主要是因为相邻像素分散在各个通道中，因此很难对其相互作用进行推理。
1.9K20发布于 2021-03-25
来自专栏机器之心
3D AI生成出新玩法了：无需数小时，只要45秒，单张图片即可生成 3D模型
机器之心专栏机器之心编辑部 45 秒单张图片变 3D，无需大量 3D 数据和逐物体优化。 3D AI 生成最近发展得如火如荼，不少最新工作都能够从一句话 / 一张图生成高质量的三维模型。这种方式使得现有的 3D AI 生成方法都非常耗时，譬如 ProlificDreamer 的作者就曾在知乎上表示方法目前的主要局限之一便是生成时间太慢了！方法由于 3D 数据的稀缺性，学术界最近的绝大多数 3D AI 生成工作都通过利用 2D 扩散生成模型来指导 3D 表示（如 NeRF）的优化，从而实现 3D 内容生成。与现有 3D AI 生成方法的比较研究者表示，得益于 “2D 多视角预测 + 3D 可泛化重建” 的技术路线，One-2-3-45 与现有的 3D AI 生成方法相比，除了推断时间显著降低外，还在输入的多样性结语 One-2-3-45 提出了 “2D 多视角预测 + 3D 可泛化重建” 这样一项新颖的 3D AI 生成玩法，并在许多方面都展示出了其优越性。
4.4K30编辑于 2023-08-07
AI生成隐藏3D图像的局限性分析
隐藏3D图像的AI生成实验你是否见过那些隐藏着3D图像的自体立体图？就像1990年代的Magic Eye图片，看似嘈杂的重复图案，直到你以特定方式调节视觉焦距才能看到立体效果。技术实现机制剖析当要求"生成独角兽魔法眼3D立体图像"时，ChatGPT传递给DALL-E3（实际负责图像生成的模型）的描述极其详细：需要包含复杂图案和多样化色彩以确保3D效果突出背景应包含神秘元素以增强深度幻觉独角兽的角和鬃毛应在图案中清晰可辨但多模型协作的局限性某机构的Gemini（原Bard）使用专用图像生成模型Imagen 2，其隐藏图像效果更加不理想。虽然Gemini具备图像描述模型，但仅当用户上传图像时才会调用该功能。在自主生成场景中，它本质上仍是文本生成器。这些被宣传为"全能AI"的模型，实际更像装满应用的手机：文本生成应用可在特定情况下启动图像生成应用，但它们并非真正意义上的统一程序。最后尝试让ChatGPT生成《小王子》风格的隐藏绵羊图像，结果基本失败。这再次证明了当前AI在多模态任务协同处理上的技术局限性。
30910编辑于 2025-09-07
来自专栏DeepHub IMBA
PIFuHD简介：使用AI从2D图像生成人的3D高分辨率重建
简而言之，它使用某人的2D图像来重构该人的3D高分辨率版本。我们的主要目标是对穿着衣服的人进行高保真3d重建，并获得详细信息，例如手指，面部特征和衣服褶皱，正如我们在此图中看到的那样。粗略层通过对图像进行下采样并将其输入到PIFu模型中来捕获全局3D结构，而高分辨率的详细信息是通过在相似的轻量级PIFu网络中使用这些第一个3D输出作为高分辨率输入来添加的。由于精细层级将第一层级的特征作为3d嵌入，因此不需要以更高的分辨率查看整个图像，从而可以在没有背景的情况下提供此人的高分辨率图像。正像图中展示的，需要多层PIFu才能获得高分辨率3D模型，但是使用单层PIFu可以更快地创建准确的模型。这种新方法是精确的，并且使用这种双向模型使它在现阶段的内存限制下可以成功运行。 arxiv.org/pdf/2004.00452.pdf colab演示: https://colab.research.google.com/drive/11z58bl3meSzo6kFqkahMa35G5jmh2Wgt
2K30发布于 2020-12-11
来自专栏媒矿工厂
2D 扩散模型 + Nerf，实现文本生成 3D 模型
扩散模型和Nerf（神经辐射场）结合，提出DreamFusion，实现了从文字生成3D模型。但是，如果想要将这种方法应用于 3D 生成（synthesis），需要对大规模的 3D 数据集进行标注并且在其上面训练，除此之外，还需对 3D 数据去噪的有效架构，但目前这两者都不存在。在这项工作中，作者通过使用预训练的 2D 文本-图像的扩散模型，实现文本到 3D 合成。他们引入了基于概率密度蒸馏的损失函数，这也允许了2D扩散模型作为先验，用以优化参数图像生成器。在类似 DeepDream 的过程中使用这种损失函数，作者通过梯度下降优化随机初始化的 3D 模型（NeRF），使其从随机角度的 2D 渲染均能让损失函数值较低。在该方法中，给定文本生成的 3D 模型可以从任意角度观察，通过任意照明重新点亮，或合成到任何 3D 环境中。
3.2K20编辑于 2022-11-07
来自专栏AI科技大本营的专栏
AI做不了“真”3D图像？试试Google的新生成模型
编译 | 若名出品 | AI科技大本营用 AI 生成逼真三维物体模型并不像人们以为的那么困难。近日，在 NeurIPS 2018 会议上接收的论文“ 视觉对象网络：图像生成与分离式的3D表示”中，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）和 Google 的研究人员介绍了能创造出有逼真纹理和形状的一个生成式 “现代深层生成模型学会了合成逼真的图像，”研究人员写道，“但大多数计算模型只专注于生成 2D 图像，而忽略了 3D 世界的美好......这种视角不可避免地限制了它们在许多领域的实际应用，例如合成数据生成 “我们的主要想法是将图像生成过程分解为形状、视点和纹理三种因素，”Google 团队写道，“这种分离式 3D 表示使我们能够在对抗学习框架下从 3D 和 2D 视觉数据集合中学习模型。与现有的 2D 生成模型相比，我们的模型合成了更逼真的图像，它还可以做到以前的 2D 方法也无法实现的各种 3D 操作。” 近年来，GAN 的研究突飞猛进，特别是在机器视觉领域。
1K20发布于 2018-12-24
来自专栏程序那些事儿
Runway Gen2：AI视频生成的未来
Runway Gen2 是一种由 Runway Research 开发的新的文本到视频生成器。它是第一款公开可用的文本到视频模型，能够“真实和一致”地合成新视频。使用方式 Gen2 提供了多种生成视频的方式，你可以直接通过文本描述来生成一段视频，当然，你也可以根据图片和文字的描述来生成视频，此外，你还可以通过对视频进行神奇描绘来生成视频。配合着类似 midjourney 等图片生成工具，你完全可以制作自己的动画视频。应用 Gen2 具有广泛的应用前景。它可用于：创意表达，创建新的艺术作品、视频游戏、电影等。例如，您可以使用 Gen2 创建一段视频宣传您的新产品或服务挑战 Gen2 仍在开发中，但它已经显示出巨大的潜力。随着模型的改进，Gen2 将能够生成更加逼真和逼真的视频。然而，Gen2 也面临一些挑战。例如，Gen2 生成的视频可能存在偏见或错误。此外，Gen2 可能被用于生成虚假或误导性的视频。结论 Runway Gen2 是一项具有重要潜力的技术。
1.2K10编辑于 2023-11-30
来自专栏Dance with GenAI
AI工具Meshy一键生成3D打印模型STL文件
要使用AI从几张图片生成3D打印模型的STL文件，你可以采用以下几种方法和工具： Genie：Luma AI推出的Genie工具可以将文本或图像转换为3D模型。你可以在网页上输入提示词或上传图片，系统会在几秒内生成基础的3D模型，并支持进一步编辑和下载为STL等格式。 Tripo：Tripo工具支持通过文本或图像生成3D模型。 CSM（Common Sense Machines，https://3d.csm.ai/register）：CSM支持从视频和图像创建3D模型。你可以上传一张背景干净的正面图像，系统会生成初始3D模型和精修3D模型，支持下载为STL等格式。 SudoAI：SudoAI支持通过文本和图像生成3D模型，主攻游戏领域的模型生成。它结合多视图扩散模型和法线扩散模型，能够快速生成具有高保真度和丰富纹理的3D网格，并支持导出为STL格式。 Meshy：Meshy支持文本生成3D和图片生成3D的功能。
5.3K10编辑于 2024-08-06
来自专栏机器之心
给3D资产生成高清纹理，腾讯让AI扩充游戏皮肤
Paint3D 通过引入预训练 2D 图像生成模型来获取文字和图像输入的引导能力，从不同的提示中概括出丰富且高质量的纹理。该框架主要分为粗糙纹理生成和纹理细化两个阶段：1）在粗糙阶段，从预训练的 2D 图像扩散模型中采样多视角图像，然后将这些图像反投影到网格表面上，创建初始纹理贴图。粗糙纹理生成阶段在粗糙阶段，研究团队基于预训练的视角深度感知的 2D 扩散模型为 3D 模型生成粗糙的 UV 纹理贴图，从不同的相机视角渲染深度图，然后使用深度条件从图像扩散模型中采样图像，最后将这些图像反投影到网格表面上为了提高每个视角中纹理网格的一致性，研究团队交替执行渲染、采样和反投影的三个过程，首先，从第一个视角将 3D 网格渲染成深度图，然后根据输入纹理条件和深度图像，利用 2D 扩散模型采样得到纹理图像：接下来纹理细化阶段对于细化阶段而言，尽管第一阶段生成的粗糙纹理外观是连贯的，但仍存在一些问题，比如由 2D 图像扩散模型引起的光照阴影，或者在渲染过程中由自遮挡引起的纹理空洞。
83210编辑于 2024-01-04
腾讯混元生3D产品概要：基于自研大模型的AI 3D内容生成平台
一、产品定位与核心亮点产品定义：腾讯混元生3D是一款基于腾讯自研大模型的AI 3D内容生成平台。适用于平台大量商品3D化转换，以及客户DIY装修素材的批量生产场景。平台工具厂商：面向具备丰富网站AI能力及素材工具的平台，作为底层AI能力插件，补充并完善平台的3D素材生成链路。超高清模型质量：凭借1536³分辨率与36亿体素的硬核支撑，解决AI生成3D模型精度不足的行业痛点，输出超高质量模型。案例2：Lovart 背景：属于AI技术行业，自身定位为平台工具厂商，拥有丰富的网站AI能力和素材工具，需要进一步拓展3D维度的生成能力。解决方案：将腾讯混元生3D集成至其平台工具矩阵中。痛点在于普通用户获取可打印的优质3D模型门槛过高，制约了打印机的使用频次。解决方案：接入AI 3D内容生成平台能力。
55410编辑于 2026-04-21
来自专栏新智元
3D卷积GAN飞起！微软“可缩放”新框架只需2D数据即可生成逼真3D模型
新智元报道来源：VB 编辑：元子【新智元导读】Microsoft Research近日发表论文介绍了一种通过2D数据生成3D模型的新框架，其使用3D卷积GAN，利用2D图像提供的物体表面之间的曝光差异成功检测出凹形物体的内部结构将2D图像转换成3D图像是一件非常困难的事情，包括Facebook，Nvidia的AI研究实验室，以及Threedy.ai之类的初创公司都在不断的在此领域进行探索。与以前的工作相反，研究人员试图利用功能齐全的工业渲染器，例如显示数据生成图像的软件。为此，他们训练了3D形状的生成模型，以便生成与2D数据集的分布相匹配的图像。生成器模型采用随机输入向量（代表数据集特征的值）并生成3D对象的连续体素表示（3D空间中网格上的值）。参考链接： https://venturebeat.com/2020/03/05/microsofts-ai-generates-3d-objects-from-2d-images/
1.1K31发布于 2020-03-11
来自专栏数据结构和算法
我掌握的新兴技术：AIGC：如何用AI生成惊艳的3D内容
AIGC：如何用AI生成惊艳的3D内容引言在这个博客中，我们将探讨如何使用人工智能生成计算机（AIGC）来生成惊艳的3D内容。我们将详细介绍每个步骤，并提供代码示例以帮助您理解。1. PerspectiveCamera(position=[3, 3, 3])# 创建一个渲染器并显示场景renderer = WebGLRenderer(scene=scene, camera=camera)renderer2. 使用AI生成3D内容人工智能可以用于生成3D内容。这通常涉及到使用深度学习模型，如生成对抗网络（GANs）或变分自编码器（VAEs）。可视化生成的3D内容生成3D内容后，我们需要将其可视化。这可以通过各种3D渲染工具来实现。 , 0], generated_object[:, :, :, 1], generated_object[:, :, :, 2])plt.show()结论通过这个教程，我们了解了如何使用AIGC生成惊艳的
87610编辑于 2024-01-26
AI创意应用盘点：从3D模型到视频生成的LoRA技巧
ShieldGemma 2ShieldGemma 2是一个强大的新模型，能够高精度地检测NSFW内容、暴力材料和不安全指令。 Hunyuan3D 2MiniHunyuan3D 2Mini是其早期3D生成模型的一个更快、更小的版本。它非常适合游戏资产创建和风格化角色创作，并且已经出现在某社交平台的工作流程中，创作者可以用它以前所未有的速度构建充满活力的3D世界。凭借内置的类人特性，它们非常适合用于逼真的语音、游戏对话，或者只是让你的AI听起来更有活力。社区创意Flux、Kling和Wan2.1等模型正在推动病毒式创意的激增——包括动画人物和AI生成的虚拟形象。本期内容到此为止，但请继续关注更多关于模型、实验和值得一试的酷炫想法。
32210编辑于 2026-01-07
来自专栏机器之心
一秒内从单个图像生成3D对象，支持实时编辑，Stability AI推出3D生成新方法SPAR3D
机器之心报道编辑：小舟、佳琪 2D 升维成 3D 的过程中，可见部分和不可见部分可以分开建模。 2025 年来了，3D 生成也迎来了新突破。刚刚，Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D（Stable Point Aware 3D），旨在为游戏开发者、产品设计师和环境构建者开拓 3D 当输入一张图像时，该方法可以生成一个包含 PBR 材质的 3D 网格模型，其中包括反照率、金属度、粗糙度和表面法线等属性。该团队设计了一个包含点采样和网格化两个阶段的模型（如图 2 所示）。如表 1 和表 2 所示，SPAR3D 在两个数据集的大多数评估指标上都显著优于其他回归或生成式基线方法。参考链接： https://stability.ai/news/stable-point-aware-3d?
71710编辑于 2025-02-03
SIMA 2：Gemini赋能的3D虚拟世界AI智能体
SIMA 2: 能在3D虚拟世界中与你一同游玩、推理和学习的智能体去年，我们推出了SIMA（可扩展的、可指导的多世界智能体），这是一个通用AI，能够在广泛的虚拟环境中遵循基本指令。 SIMA是教导AI在丰富的3D世界中将语言转化为有意义行动的关键第一步。今天，我们推出SIMA 2，这是我们在创建通用且有用的AI智能体研究中的下一个里程碑。这就是Gemini为具身AI带来的力量：一个世界级的推理引擎，现在能够感知、理解并在复杂的交互式3D环境中采取行动。泛化性能的巨大飞跃Gemini的加入也带来了泛化能力和可靠性的提升。终极测试：在全新生成的世界中游戏为了测试SIMA 2泛化能力的极限，我们将其与另一个开创性研究项目Genie 3相结合，后者可以根据单张图像或文本提示生成新的、实时的3D模拟世界。此过程使智能体能够完全独立于人类生成的演示和干预，改进先前失败的任务。这种迭代改进的良性循环为未来智能体能以最少的人为干预学习和成长铺平了道路，成为具身AI中的开放式学习者。
25710编辑于 2026-03-25
来自专栏机器之心
一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景
3D 内容创作的核心是逆向图形学，旨在从 2D 观测中恢复 3D 表征。考虑到创建 3D 资产所需的成本和劳动力，3D 内容创作的最终目标将是从海量的互联网二维图像中学习三维生成模型。最近关于三维感知生成模型的工作在一定程度上解决了这个问题，多数工作利用 2D 图像数据生成以物体为中心的内容（例如人脸、人体或物体）。然而，这类生成任务的观测空间处于有限域中，生成的目标占据了三维空间的有限区域。这就产生了一个问题，我们是否能从海量互联网 2D 图像中学习到无界场景的 3D 生成模型？ 2）缺乏内容对齐：已有三维生成工作使用具备对齐性质的数据集（如人脸、人体、常用物体等），这些有界场景中的目标物体通常具备类似的语义、相近的尺度位置和方向。该框架包含三个主要模块：1）高效且高表现力的鸟瞰（BEV）三维场景表征；2）学习场景通用表征的生成式神经哈希网格；3）由风格驱动的体积渲染器，并经过对抗学习的方式直接从二维图像中进行训练。
93720编辑于 2023-05-01
来自专栏我爱计算机视觉
2张图2秒钟3D重建！这款AI工具火爆GitHub，网友：忘掉Sora
关注公众号，发现CV技术之美丰色发自凹非寺量子位 | 公众号 QbitAI 只需2张图片，无需测量任何额外数据—— 当当，一个完整的3D小熊就有了：这个名为DUSt3R的新工具，火得一塌糊涂，有网友实测，拍两张照片，真的就重建出了他家的厨房，整个过程耗时不到2秒钟！如下图所示，场景的两个视图（I1，I2）首先用共享的ViT编码器以连体（Siamese）方式进行编码。以下是两组官方给出的3D重建效果，再给大伙感受一下，都是仅输入两张图像：（一）（二）网友实测：两张图无重叠也行有网友给了DUSt3R两张没有任何重叠内容的图像，结果它也在几秒内输出了准确的3D视图：（图片是他的办公室，所以肯定没在训练中见过）对此，有网友表示，这意味着该方法不是在那进行“客观测量”，而是表现得更像一个AI。
79510编辑于 2024-03-05
来自专栏AI科技评论
苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！
不过，像 OpenAI 的 DALL-E 2 或谷歌的 Imagen 等 AI 系统，都只能生成二维图像，如果文字也能变成三维场景，那带来视觉体验势必加倍提升。现在，来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。它可以捕捉复杂和逼真的 3D 场景分布，从移动摄像机中进行沉浸式渲染，还能根据文本提示来创建 3D 场景！ 2D 图像生成 3D 模型的系统。当然可以，已经有研究团队尝试了 3D 场景的生成，如谷歌在去年首次推出了 AI 系统 Dream Fields，它将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合不过，这个系统或许可以为苹果正在进行的渲染 3D 对象和场景的 AI 系统，这是一个好的开始和基础，据说 GAUDI 还将被应用到苹果的 XR 耳机中，用于生成数字化位置。
62910编辑于 2022-08-26
来自专栏点云PCL
3D特征点概述（2）
紧接上文思路继续介绍3D特征的基本概念问题。 ? RIFT (Rotation-Invariant Feature Transform) RIFT是一种局部特征描述法，且该方法扩展于SIFT。（2）NARF不仅是描述符，还是检测器。（2）此功能不使用颜色信息。工作原理：（1）迭代点云P中的点。（2）对于输入云中的每个点Pi（i是迭代索引），收集具有半径r的Pi周围的球体内的所有相邻点。 D3 shape description functions: Matching 3D Models with Shape Distributions (Osada et. al.) （3） D2：对于D2函数，计算Pri和Prj之间的距离。然后检查连接两点的线是否完全位于表面（IN），表面外（OUT）或两者（MIXED）。
1.9K50发布于 2019-07-30

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

苹果发布 AI 生成模型 GAUDI，文字生成 3D 场景

玩转3D全息图像！AI即刻生成

3D AI生成出新玩法了：无需数小时，只要45秒，单张图片即可生成 3D模型

AI生成隐藏3D图像的局限性分析

PIFuHD简介：使用AI从2D图像生成人的3D高分辨率重建

2D 扩散模型 + Nerf，实现文本生成 3D 模型

AI做不了“真”3D图像？试试Google的新生成模型

Runway Gen2：AI视频生成的未来

AI工具Meshy一键生成3D打印模型STL文件

给3D资产生成高清纹理，腾讯让AI扩充游戏皮肤

腾讯混元生3D产品概要：基于自研大模型的AI 3D内容生成平台

3D卷积GAN飞起！微软“可缩放”新框架只需2D数据即可生成逼真3D模型

我掌握的新兴技术：AIGC：如何用AI生成惊艳的3D内容

AI创意应用盘点：从3D模型到视频生成的LoRA技巧

一秒内从单个图像生成3D对象，支持实时编辑，Stability AI推出3D生成新方法SPAR3D

SIMA 2：Gemini赋能的3D虚拟世界AI智能体

一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

2张图2秒钟3D重建！这款AI工具火爆GitHub，网友：忘掉Sora

苹果开发「AI 建筑师」GAUDI：根据文本生成超逼真 3D 场景！

3D特征点概述（2）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐