整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 前有DALL.E文本生成图像,现有将文字变成 3D场景。 近日,苹果 AI 团队发布最新 AI 模型 GAUDI,它是基于 3D 场景的神经架构 NeRFs,可以根据文字生成 3D 室内场景。 2021 年末时,谷歌通过 Dream Fields 首次展示了 3D AI 生成系统,将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。 Apple GAUDI 是 3D 内饰专家 虽然谷歌致力于使用 Dream Fields 生成单个对象,但将生成 AI 扩展到完全不受约束的 3D 场景仍是一个尚未解决的问题。 虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高,但这也说明了 AI 在图像和视频技术这生成的另一种可能。
/VITA-Group/4DGen 视频 研究背景 尽管3D和视频生成取得了飞速的发展,由于缺少高质量的4D数据集,4D生成始终面临着巨大的挑战。 4DGen提出了“Grounded 4D Generation“的形式,通过利用视频序列和可选的3D模型作为4D生成的控制信息,可以实现更为精准的4D内容生成。 用户可通过输入视频序列或3D模型来约束4D结果的运动和外观;当用户仅提供单张图片作为输入时,可借助预训练好的视频生成模型来得到视频序列;当用户未提供3D模型时,可通过单张图片重建3D模型来作为起始点。 4DGen将每一帧生成的多视图作为2D伪标签,并且采用多视图生成的点云作为3D点的伪标签来监督训练过程。 总结 4DGen定义了” Grounded 4D Generation“的任务形式,通过视频序列和可选3D模型的引入提升了4D生成的可控性。
计算机生成的全息(CGH)通过对衍射和干涉的数值模拟实现了高空间角度的3D投影。 长期以来,研究人员一直在研究制作全息图的技术,但是,现有的基于物理的方法无法生成具有按像素聚焦控制和精确遮挡的全息图。 研究人员通过引入具有4,000对RGB深度图像和相应的3D全息图的大规模CGH数据集(MIT-CGH-4K)进行训练。 ? 麻省理工学院的研究人员使用深度学习来加速计算机生成的全息图,从而实现实时全息图的生成。研究人员设计了一种卷积神经网络,使用可训练的张量链大致模拟人类如何处理视觉信息。 研究人员引入了大规模菲涅耳全息图数据集MIT-CGH-4K,该数据集由4,000对RGB深度(RGB-D)图像和相应的3D全息图组成。 首先,用于渲染RGB-D图像的3D场景具有很高的复杂度,并且在颜色,几何形状,阴影,纹理和遮挡方面存在很大的差异,以帮助CNN推广到计算机渲染和实际捕获的RGB-D测试中 输入,通过自定义随机场景生成器实现的
最近,我们通过OpenAI的病毒式ChatGPT和新的GPT-4大型多模态模型进行了实验,展示了如何轻松开发定制工具,以快速生成NVIDIA Omniverse虚拟世界的3D物体。 通过将GPT-4与Omniverse DeepSearch相结合,Omniverse DeepSearch是一种智能的人工智能图书管理员,可以搜索大量未标记的3D资产数据库,我们能够快速开发自定义扩展程序 AI Room生成器扩展 这个有趣的实验在NVIDIA Omniverse中展示了开发人员和技术艺术家如何轻松快速地开发定制工具,利用生成式人工智能来填充逼真的环境。 AI 在生成响应时能够适当地遵循这些系统提示的事实特别令人印象深刻,因为 AI 展示了良好的空间意识和正确放置物品的能力。 我们正在努力将这个和其他实验性生成 AI 示例尽快提供给 Omniverse 创作者和开发人员。您可以在 Omniverse AI ToyBox 中查看我们最初的 AI 研究项目。
机器之心专栏 机器之心编辑部 45 秒单张图片变 3D,无需大量 3D 数据和逐物体优化。 3D AI 生成最近发展得如火如荼,不少最新工作都能够从一句话 / 一张图生成高质量的三维模型。 这种方式使得现有的 3D AI 生成方法都非常耗时,譬如 ProlificDreamer 的作者就曾在知乎上表示方法目前的主要局限之一便是生成时间太慢了! 方法 由于 3D 数据的稀缺性,学术界最近的绝大多数 3D AI 生成工作都通过利用 2D 扩散生成模型来指导 3D 表示(如 NeRF)的优化,从而实现 3D 内容生成。 与现有 3D AI 生成方法的比较 研究者表示,得益于 “2D 多视角预测 + 3D 可泛化重建” 的技术路线,One-2-3-45 与现有的 3D AI 生成方法相比,除了推断时间显著降低外,还在输入的多样性 结语 One-2-3-45 提出了 “2D 多视角预测 + 3D 可泛化重建” 这样一项新颖的 3D AI 生成玩法,并在许多方面都展示出了其优越性。
隐藏3D图像的AI生成实验你是否见过那些隐藏着3D图像的自体立体图?就像1990年代的Magic Eye图片,看似嘈杂的重复图案,直到你以特定方式调节视觉焦距才能看到立体效果。 技术实现机制剖析当要求"生成独角兽魔法眼3D立体图像"时,ChatGPT传递给DALL-E3(实际负责图像生成的模型)的描述极其详细:需要包含复杂图案和多样化色彩以确保3D效果突出背景应包含神秘元素以增强深度幻觉独角兽的角和鬃毛应在图案中清晰可辨但 在自主生成场景中,它本质上仍是文本生成器。这些被宣传为"全能AI"的模型,实际更像装满应用的手机:文本生成应用可在特定情况下启动图像生成应用,但它们并非真正意义上的统一程序。 在生成ASCII文字艺术并自行读取时:在新会话中向其发送自生成的ASCII文字时,它识别为"ERROR"对自身创作的ASCII艺术品的识别和评级同样糟糕技术本质揭示生成ASCII艺术和3D图像并非ChatGPT 最后尝试让ChatGPT生成《小王子》风格的隐藏绵羊图像,结果基本失败。这再次证明了当前AI在多模态任务协同处理上的技术局限性。
序本文主要研究一下怎么通过langchai4j结合zhipu-ai生成图片步骤pom.xml<dependency> <groupId>dev.langchain4j</groupId> < artifactId>langchain4j-community-zhipu-ai</artifactId> <version>1.0.0-beta1</version></dependency> prompt=Beautiful house on country side,就可以得到图片链接小结langchain4j集成了Azure OpenAI Dall·E、OpenAI Dall·E、Google Imagen、Cloudflare Workers AI、ZhiPu AI、Xinference这几种图像大模型。 对于ZhiPu AI来讲,提供了ZhipuAiImageModel,通过generate方法即可生成图片。docimage-modelsZhiPu AI
编译 | 若名 出品 | AI科技大本营 用 AI 生成逼真三维物体模型并不像人们以为的那么困难。 近日,在 NeurIPS 2018 会议上接收的论文“ 视觉对象网络:图像生成与分离式的3D表示”中,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)和 Google 的研究人员介绍了能创造出有逼真纹理和形状的一个生成式 “现代深层生成模型学会了合成逼真的图像,”研究人员写道,“但大多数计算模型只专注于生成 2D 图像,而忽略了 3D 世界的美好......这种视角不可避免地限制了它们在许多领域的实际应用,例如合成数据生成 “我们的主要想法是将图像生成过程分解为形状、视点和纹理三种因素,”Google 团队写道,“这种分离式 3D 表示使我们能够在对抗学习框架下从 3D 和 2D 视觉数据集合中学习模型。 9 月, Nvidia 的研究人员开发了一种 AI 模型,可以生成脑癌的合成扫描图像,8 月,卡内基梅隆大学的一个团队 演示了 AI 可以将人们已存的动作和面部表情转换成另一张照片或视频中的目标对象。
AI技术在游戏研发中的应用 Part 4 游戏AI的应用—内容生成 简介:游戏AI除了应用在智能角色控制,还有另一大看点就是游戏内容生成。 殷老师通过超级玛丽的关卡、斗地主中的残局的生成等多个例子,向大家展示游戏AI的创造力。 内容难度:★☆☆(高中/大学及以上非计算机专业学生均可以学习) ?
谷歌正在推出一种新的图像生成 AI 模型 Imagen 4,该公司声称该模型比其之前的图像生成器Imagen 3提供更高质量的结果。 “我们还投入了大量精力,并针对其生成文本和地形的方式进行了改进,因此它非常适合制作幻灯片、邀请函,或者任何其他需要融合图像和文字的内容。” Imagen 4 的样本图片来源:谷歌 从ChatGPT 的热门工具到Midjourney 的 V7 ,市面上 AI 图像生成器琳琅满目。它们都相对复杂、可定制,并且能够创作高质量的 AI 艺术作品。 那么,是什么让 Imagen 4 脱颖而出呢? 另一个 Imagen 4 样本图片来源:谷歌 据谷歌称,Imagen 4 速度很快——比 Imagen 3 还要快。而且它很快就会变得更快。 从今天早上开始,Imagen 4 可以在 Gemini 应用程序、Google 的 Whisk 和 Vertex AI 平台以及 Google Workspace 中的 Google Slides、Vids
要使用AI从几张图片生成3D打印模型的STL文件,你可以采用以下几种方法和工具: Genie:Luma AI推出的Genie工具可以将文本或图像转换为3D模型。 你可以在网页上输入提示词或上传图片,系统会在几秒内生成基础的3D模型,并支持进一步编辑和下载为STL等格式。 Tripo:Tripo工具支持通过文本或图像生成3D模型。 CSM(Common Sense Machines,https://3d.csm.ai/register):CSM支持从视频和图像创建3D模型。 你可以上传一张背景干净的正面图像,系统会生成初始3D模型和精修3D模型,支持下载为STL等格式。 SudoAI:SudoAI支持通过文本和图像生成3D模型,主攻游戏领域的模型生成。 它结合多视图扩散模型和法线扩散模型,能够快速生成具有高保真度和丰富纹理的3D网格,并支持导出为STL格式。 Meshy:Meshy支持文本生成3D和图片生成3D的功能。
机器之心专栏 机器之心编辑部 近日,腾讯宣布推出一项名为 Paint3D 的技术,它能够根据文本或图像输入,为无纹理的 3D 模型生成高分辨率、无光照且多样化的纹理贴图,对任何 3D 物体进行纹理绘制。 这些纹理没有内嵌光照阴影效果,同时保持了语义一致性,大大提升了 3D 模型纹理生成方面的最优效果。 3D 生成领域学者 Yawar Siddiqui 评价道:「终于有一种无内嵌光照的纹理生成方法了,结果非常出色,是我所见过的最好的纹理生成方法!」 ,将这个图像从第一个视角反投影到 3D 网格上,生成该视角的纹理贴图。 实验结果显示,Paint3D 有着更好的纹理生成质量,同时能生成更符合输入条件的纹理结果,实验结果对比如下: 研究人员也在相同的 3D 模型上与当前最佳的纹理生成算法进行比较。
一、 产品定位与核心亮点 产品定义:腾讯混元生3D是一款基于腾讯自研大模型的AI 3D内容生成平台。 适用于平台大量商品3D化转换,以及客户DIY装修素材的批量生产场景。 平台工具厂商:面向具备丰富网站AI能力及素材工具的平台,作为底层AI能力插件,补充并完善平台的3D素材生成链路。 案例2:Lovart 背景:属于AI技术行业,自身定位为平台工具厂商,拥有丰富的网站AI能力和素材工具,需要进一步拓展3D维度的生成能力。 解决方案:将腾讯混元生3D集成至其平台工具矩阵中。 痛点在于普通用户获取可打印的优质3D模型门槛过高,制约了打印机的使用频次。 解决方案:接入AI 3D内容生成平台能力。 成效:支持平台用户实现分钟级快速生成3D模型,并无缝衔接至终端进行打印,大幅降低使用门槛。 案例4:创想三维 背景:属于制造业,同为头部3D打印厂商,面临拓宽用户建模来源的业务需求。
一、四种方式的总结 【DOM】 DOM方式生成xml是基于DOM树的结构,整个DOM树会存在内存中,所以使用DOM方式可以频繁的修改xml的内容,但是因为DOM树是存在内存中的,所以对内存消耗较大。 【SAX】 SAX方式生成xml是逐步写 一、DOM4J生成实例 Dom4JToXmlDemo.java public class Dom4JToXmlDemo { public static void root = document.addElement(“bookstore”); //3、为根节点添加子节点book Element book = root.addElement(“book”); //4、 FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } } 一、JDOM生成实例 Element root = new Element(“bookstore”);//2、创建Document对象,将根节点写入对象中Document document = new Do 运行结果: 输出dom4jToxml.xml
作者:Zhaoxi Chen等 解读:AI生成未来 论文链接:https://arxiv.org/pdf/2508.13154 项目链接:https://4dnex.github.io/ 亮点直击 4DNeX 总结速览 解决的问题 现有的 4D(动态 3D)场景生成方法普遍依赖计算密集型的优化过程或多帧视频输入,导致效率低、泛化能力差,且难以从单张图像生成高质量的动态场景表示。 与此同时,4D 数据的稀缺也限制了模型的训练与应用。 提出的方案 本文提出了4DNeX,这是首个能够从单张图像生成动态 3D 场景的前馈式框架。 关于数据整理,如下图 3 所示,本文使用一个包含多个阶段的自动获取与筛选流程来构建该数据集: 数据清洗; 数据描述生成; 3D/4D 标注。 伪 3D 标注 由于这些数据集缺乏 3D 真值,本文使用 DUSt3R(一种立体重建模型)生成伪点图。
AIGC:如何用AI生成惊艳的3D内容引言在这个博客中,我们将探讨如何使用人工智能生成计算机(AIGC)来生成惊艳的3D内容。我们将详细介绍每个步骤,并提供代码示例以帮助您理解。1. 使用AI生成3D内容人工智能可以用于生成3D内容。这通常涉及到使用深度学习模型,如生成对抗网络(GANs)或变分自编码器(VAEs)。 # 示例:使用GAN生成3D对象from keras.models import load_model# 加载预训练的GAN模型model = load_model('gan_model.h5')# 生成随机噪声 可视化生成的3D内容生成3D内容后,我们需要将其可视化。这可以通过各种3D渲染工具来实现。 # 示例:可视化生成的3D对象import matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3D# 创建一个3D图形fig =
这是某机构在其平台上的首个此类模型,对于构建更安全的AI体验——特别是面向社交或用户的应用——是一个有用的工具。 Hunyuan3D 2MiniHunyuan3D 2Mini是其早期3D生成模型的一个更快、更小的版本。 它非常适合游戏资产创建和风格化角色创作,并且已经出现在某社交平台的工作流程中,创作者可以用它以前所未有的速度构建充满活力的3D世界。 凭借内置的类人特性,它们非常适合用于逼真的语音、游戏对话,或者只是让你的AI听起来更有活力。 社区创意Flux、Kling和Wan2.1等模型正在推动病毒式创意的激增——包括动画人物和AI生成的虚拟形象。本期内容到此为止,但请继续关注更多关于模型、实验和值得一试的酷炫想法。
机器之心报道 编辑:小舟、佳琪 2D 升维成 3D 的过程中,可见部分和不可见部分可以分开建模。 2025 年来了,3D 生成也迎来了新突破。 刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D squarespace.com/static/6213c340453c3f502425776e/t/677e3bc1b9e5df16b60ed4fe/1736326093956/SPAR3D+Research 为了既能充分利用扩散模型在分布式学习方面的优势,又能避免输出质量差和计算效率低的问题,Stability AI 的研究团队设计了一个两阶段重建系统:SPAR3D。 参考链接: https://stability.ai/news/stable-point-aware-3d?
swagger2markup 使用MAVEN插件生成AsciiDoc文档 使用MAVEN插件生成HTML 下节预告 Swagger生成JavaDoc ---- 在日常的工作中,特别是现在前后端分离模式之下 --整合Swagger2--> <dependency> <groupId>com.spring4all</groupId> <artifactId com.liferunner.dto.UserRequestDTO对象,这个对象的属性如下: @RestController @RequestMapping(value = "/users") @Slf4j 生成结果如下: ? adoc文件生成好了,那么我们使用它来生成html吧 使用MAVEN插件生成HTML 在mscx-shop-api\pom.xml中加入以下依赖代码: <!
不过,像 OpenAI 的 DALL-E 2 或谷歌 的 Imagen 等 AI 系统,都只能生成二维图像,如果文字也能变成三维场景,那带来视觉体验势必加倍提升。 现在,来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。 它可以捕捉复杂和逼真的 3D 场景分布,从移动摄像机中进行沉浸式渲染,还能根据文本提示来创建 3D 场景! 那么,NeRFs 这种从不同摄像机角度逼真地渲染图像的强大能力,能不能用于生成式 AI 呢? 当然可以,已经有研究团队尝试了 3D 场景的生成,如谷歌在去年首次推出了 AI 系统 Dream Fields,它将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合 不过,这个系统或许可以为苹果正在进行的渲染 3D 对象和场景的 AI 系统,这是一个好的开始和基础,据说 GAUDI 还将被应用到苹果的 XR 耳机中,用于生成数字化位置。