搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏IT杂谈学习
机器学习探索稳定扩散：前沿生成模型的魅力解析
本文将深入探讨稳定扩散的原理、实现方法以及在图像生成领域的应用，带领读者进入这一机器学习领域中引人入胜的领域。稳定扩散的原理稳定扩散是一种基于马尔科夫链蒙特卡罗（MCMC）方法的生成模型。下面以图像生成为例，展示稳定扩散的应用：图像生成通过训练稳定扩散模型，我们可以从噪声中生成逼真的图像。 0)) plt.show() 小结稳定扩散模型作为一种基于MCMC的生成模型，在机器学习领域展现出了巨大的潜力。通过前文的介绍，读者对稳定扩散的原理有了深入理解，并了解了如何利用PyTorch实现该模型。同时，我们也探讨了稳定扩散在图像生成领域的应用，展示了其在创造逼真图像方面的优势。期待读者能够通过本文的介绍，进一步探索稳定扩散模型的更多应用与发展。
58300编辑于 2024-05-26
来自专栏人工智能前沿讲习
【他山之石】Stable Diffusion 万字长文详解稳定扩散模型
Stable Diffusion 稳定扩散模型简介 Stable Diffusion 是 Diffusion 扩散模型中最先进的模式（ Diffusion 有一些早期版本，比如：原始Diffusion 它采用了更加稳定、可控和高效的方法来生成高质量图像。在生成图像的质量、速度和成本上都有显著的进步，因此该模型可以直接在消费级显卡上实现图像生成，可达至少 512*512 像素的图像。 Stable Diffusion 稳定扩散模型详细结构 Stable Diffusion 稳定扩散模型可以被应用在许多领域，但在 AIGC 设计领域，我们仅关注它的两个主要方面：第一个是文生图（text2img 这个图像生成器进一步拆解如下： 2.2 Image information creator 图像信息创建器这个模块就是 Stable Diffusion 稳定扩散架构的核心武器，是它比以前的 Diffusion 可以参考：《Diffusion 扩散模型》）。
20.8K712编辑于 2024-03-02
来自专栏机器之心
扩散模型新突破！无需微调，就能高效稳定移除目标物体
为了解决这些问题，本文提出了一种基于扩散模型且无需微调的方法 ——Attentive Eraser，以增强预训练扩散模型目标移除的能力，从而实现稳定有效的目标移除。（2）通过一系列实验和用户偏好研究，本文验证了所提出方法的有效性、鲁棒性和可扩展性。实验结果表明，本文的方法在目标移除的质量和稳定性方面均超越了现有的最先进方法。这种情况会导致扩散模型在去除前景目标时，误将背景中相似的部分保留，从而无法彻底去除目标（见图 2（a）右侧的一个例子）。从结果可以明显看到其他基于扩散模型的方法的标准偏差较大，说明了它们应用在目标移除任务时的不稳定性，而我们的结果展现了显著更低的标准偏差，说明我们方法的稳定性显著优于对比方法，更倾向于生成一致性高的图像。相比之下，其他基于扩散模型的方法都存在一个普遍的问题，即目标移除的不稳定性，这种不稳定性往往导致随机伪影的出现，无法生成与背景连贯一致的内容。
38600编辑于 2025-02-25
来自专栏DeepHub IMBA
Stability AI发布基于稳定扩散的音频生成模型Stable Audio
近日Stability AI推出了一款名为Stable Audio的尖端生成模型，该模型可以根据用户提供的文本提示来创建音乐。架构自动编码器(VAE)，一个文本编码器和U-Net扩散模型。 Stable Audio中的扩散模型是一个U-Net架构，具有强大的9.07亿个参数，灵感来自Moûsai 模型。它结合残差层、自注意力层和交叉注意力层，基于文本和时间嵌入对输入数据进行有效降噪。总结 Stability AI的Stable Audio AI模型标志着人工智能驱动的听觉创造力的重大飞跃。它为音乐和声音爱好者打开了新的视野。在未来还会提供进一步增强模型、数据集和训练技术的体系结构，发布基于Stable Audio的开源模型，并将提供必要的代码，以方便定制音频内容生成模型的训练。
71710编辑于 2023-09-21
来自专栏机器之心
GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传
它并不像以往那样走 tricks 路径 —— 通过一场「现代化」改造，GAN 现在可以进行更长时间的训练（与扩散模型的训练步骤数相当），一旦 GAN 训练时间足够长，并且架构足够强大，它们就可以胜过扩散模型尽管方法非常简单，但它在 FFHQ、ImageNet、CIFAR 和 Stacked MNIST 数据集上却超越了 StyleGAN2，并且在与最先进的 GAN 和扩散模型的比较中表现出色。，并与近期的 GAN 模型和扩散模型进行了比较（见下图）。该模型的参数量几乎是依赖于 ADM 骨干网络的扩散模型的三分之一，这些模型的参数量大约为 300M。尽管模型较小，并且他们的模型在一步生成样本的同时，其在 FID 指标上超越了更大参数量的扩散模型（见下图）。
55910编辑于 2025-02-03
来自专栏开源心路
扩散模型介绍
介绍 AI 绘画中的扩散模型是近年来在计算机视觉和图像生成领域中获得关注的一种深度学习方法。这种模型特别擅长于生成高质量的图像，包括艺术作品和逼真的照片样式的图像。扩散模型的关键思想是通过一个渐进的、可逆的过程将数据（在这个场景中是图像）从有序状态转换到无序状态，然后再逆转这个过程来生成新的数据。 2.逐步加噪：在每个时间步 ( t )，按照预定义的噪声计划向数据添加噪声，这通常是通过应用高斯噪声来实现的。扩散模型和 GAN 区别区别点扩散模型 GAN 工作机制基于逆过程逐步还原真实数据分布包含生成器与判别器的对抗框架训练方式最大化似然估计最小化判别器损失,最大化生成器损失生成样本质量质量较高,接近真实分布质量参差不齐,易产生模式崩溃训练稳定性训练较为稳定训练难度较大,需要精心设计优势样本质量好,训练稳定可以学习更复杂分布劣势学习能力较弱样本质量不稳定,训练困难
1.1K10编辑于 2023-12-18
来自专栏算法进阶
扩散模型最新综述！
扩散模型在生成逼真样本方面显示出巨大潜力，克服了变分自编码器中的后分布对齐障碍，缓解了生成对抗网络中的对抗性目标不稳定性。例如，提出了先进的ODE/SDE求解器来加速采样过程，同时采用了模型传授策略来实现这一目标。此外，还引入了新型前向过程来增强采样稳定性或促进维度降低。 2 准备工作 2.1 概念和定义 2.1.1 时间和状态在扩散模型中，过程在时间轴上展开，时间轴可以是连续或离散。模型的状态表示数据分布，初始分布添加噪声逐渐变为先验状态。 2.1.3 从离散到连续当扰动核足够小时，可以将离散过程（式（1）和式（2））推广到连续过程。离散马尔可夫链的扩散模型可以纳入连续随机微分方程（SDE）框架，其中生成过程逆转固定正向扩散过程。本文介绍了四种增强扩散模型的最新发展：（1）采样加速技术，用于加快标准的ODE/SDE模拟；（2）新的前向过程，用于改进像素空间中的布朗运动；（3）似然优化技术，用于增强扩散ODE似然；（4）桥梁分布技术
2.6K10编辑于 2024-03-26
来自专栏数据科学（冷冻工厂）
详解 Diffusion (扩散) 模型
扩散模型是跨不同深度学习领域使用的生成模型。目前，它们主要用于图像和音频生成。最值得注意的是，这些模型是令人印象深刻的图像生成模型（例如 Dalle2 和稳定扩散）背后的驱动力。但扩散模型试图拟合一个模型，其最终目标是逆转这一过程。其基本思想是通过迭代前向扩散过程系统地、缓慢地破坏数据分布中的结构。因此扩散模型由两个阶段组成：前向扩散过程逆扩散过程前向扩散过程前向扩散过程是数据结构被破坏的阶段。稳定扩散是 OpenAI Dalle.2 的开源替代品。由于稳定扩散是一种潜在扩散模型，因此我将尝试对 LDM 进行高级解释。还记得反向扩散过程如何使用神经网络逐渐降低噪声吗？稳定扩散使用 U-Net，这是一种基于卷积的神经网络，可将图像下采样到较低的维度，并在上采样期间重建它。在下采样层和上采样层之间添加跳跃连接以获得更好的梯度流。
1.7K21编辑于 2023-10-25
来自专栏算法之名
Diffusion扩散模型介绍
而在Diffusion扩散模型中却并非如此，它没有一个所谓的判别器，而是有两个过程，一个是前向过程，一个是逆向过程。前向过程是将图像不断的加噪音，最后变成一个人看上去就是一个纯噪音的图像。
79220编辑于 2023-03-01
来自专栏又见苍岚
扩散模型 Diffusion Model
扩散模型 (Diffusion Models) 是近年提出的生成模型，扩散模型已经被证明可以生成高质量的图像，并且相比于GAN能够更好地覆盖样本分布，本文介绍相关内容。背景在文章《Diffusion Models Beat GANs on Image Synthesis》中展示了扩散模型的图像生成能力：在清晰度、多样性上都不逊色于 GAN 等模型扩散模型的灵感来源于非平衡态热力学他们定义了一个马尔可夫链的扩散步骤，慢慢地向数据中添加随机噪声，然后学习逆向扩散过程，从噪声中构造所需的数据样本。与 VAE 或流动模型不同，扩散模型的学习过程是固定的，隐变量具有较高的维数(与原始数据相同)。框架扩散模型定义很简单，包含有两个过程，分别为扩散过程和逆扩散过程。扩散过程给定一个初始数据分布 image.png (说白了就是训练集)，核心过程如上图所示，扩散过程为从右到左 X_0 \to X_T 的过程，表示对图片逐渐加噪。
1.9K40编辑于 2022-08-04
来自专栏Java项目实战
stable diffusion的Unet的详解和稳定扩散
Unet的详解和稳定扩散引言Unet是一种被广泛应用于图像分割任务的卷积神经网络结构。它的独特之处在于其编码器-解码器结构和跳跃链接的设计。本文将对Unet进行详细解析，并讨论其在稳定扩散方面的应用。 2. Unet的应用Unet在医学图像分割、自然图像分割等领域都有广泛的应用。这使得研究人员可以更好地理解网络的运行机制，并进行模型的改进和优化。3. Unet的稳定扩散稳定扩散是Unet的一个重要应用场景。稳定扩散是指通过Unet的解码器来扩大图像中感兴趣区域的范围。稳定扩散的实现可以通过调整Unet的解码器层的参数来实现。增加解码器层的数量和通道数，可以扩大感兴趣区域的范围。同时，在训练过程中，可以使用适当的损失函数和数据增强技术来提高稳定扩散的效果。稳定扩散是Unet的一个重要应用场景，可以通过调整解码器层的参数来实现。未来，随着深度学习技术的不断发展，Unet有望在更多领域发挥重要作用。
2.4K30编辑于 2023-10-02
来自专栏媒矿工厂
2D 扩散模型 + Nerf，实现文本生成 3D 模型
扩散模型和Nerf（神经辐射场）结合，提出DreamFusion，实现了从文字生成3D模型。目录摘要引入：扩散模型方法摘要在数十亿图像-文本对上训练的扩散模型，在文字生成图像的任务上大获成功。在这项工作中，作者通过使用预训练的 2D 文本-图像的扩散模型，实现文本到 3D 合成。他们引入了基于概率密度蒸馏的损失函数，这也允许了2D扩散模型作为先验，用以优化参数图像生成器。值得注意的是，该方法不需要 3D 训练数据，也不需要对图像扩散模型进行修改，证明了预训练图像扩散模型作为先验的有效性。引入：扩散模型扩散模型是隐变量生成模型，它学习将样本从易处理的噪声分布逐渐转换为数据分布的过程，他由一个正向过程 q 和一个反向过程或生成模型 p 组成。
3.1K20编辑于 2022-11-07
来自专栏人工智能前沿讲习
【综述专栏】视频扩散模型！
扩散生成模型最近已成为一种用于生成和修改连贯、高质量视频的强大技术。本综述提供了视频生成扩散模型关键元素的系统概览，涵盖应用、架构选择以及时间动态的建模。领域中的最新进展被总结并归类为发展趋势。将扩散模型适应视频生成带来了独特的挑战，这些挑战仍需克服，包括维持时间一致性、生成长视频和计算成本。应用分类视频扩散模型的可能应用可以根据输入方式大致分类。这包括文本提示、图像、视频和听觉信号。许多模型也接受这些模态的某些组合作为输入。图2展示了不同的应用。视频扩散模型通常由于架构和硬件限制而具有固定的输入和输出帧数。为了扩展这些模型生成任意长度的视频，已探索了自回归和分层方法。最后，我们考虑将视频扩散模型应用于智能决策（第11节）。视频扩散模型可以用作基于代理当前状态或高级文本任务描述的现实世界模拟器。
64510编辑于 2024-05-14
来自专栏AI算法能力提高班
DDPM | 扩散模型代码详解
，只需要拟合分布的均值和标准差即可，采用梯度下降进行参数更新p_theta(Xt-1 | Xt) 原文只拟合了均值，方差固定，后来研究指出拟合方差会带来性能提升 Object function 扩散过程通过重构扩散过程，除了L0以外，其它损失函数使用KL 散度度量2个高斯分布，即通过L2-loss优化均值通过重参数化，实现直接从X0采样得到Xt，而不需要链式采样 image-20230925175610110 embeddings.sin(), embeddings.cos()), dim=-1) return embeddings ResNet block 接下来，我们定义 U-Net 模型的核心构建模块可以利用神经网络噪声预测器，通过插入平均值的重参数化，得到一个去噪程度稍低的图像 Xt-1 image-20230925182709862 算法过程：从标准高斯分布采样一个噪声从时间步 T 开始正向扩散迭代到时间步，而逆向过程中的高斯分布参数是通过学习得到的 Diffusion Model 网络模型扩展性和鲁棒性比较强，可以选择输入和输出维度相同的网络模型，例如类似于UNet的架构，保持网络模型的输入和输出 Tensor
2K20编辑于 2023-09-26
来自专栏媒矿工厂
ICCV 2023 | Pix2Video: 基于扩散模型的视频编辑
因此，本文在深度条件稳定扩散模型上建立了我们的方法。给定I，执行每帧深度预测，并将其作为模型的额外输入。为了提高算法的时间稳定性，本文在每个扩散步骤中沿分类器指导线使用额外的指导来更新隐变量。为了执行这样的更新，首先建立了一个能量函数来增强一致性。稳定扩散和许多其他的大规模图像扩散模型一样，是一个去噪扩散隐式模型( DDIM )，其中在每个扩散步骤中，给定一个有噪声的样本 x_{t} ，沿着指向 x_{t} 的方向计算无噪声样本( x_{0} ) i-1,t}_0||^2_2 ，用于比较帧i-1和i之间在每个扩散步骤t时预测的干净图像。对加入不同强度的噪声进行了实验，并使用深度条件稳定扩散作为我们的主干扩散模型。( iv )最后，我们还考虑了并行的Tune-a-Video方法，该方法对预训练的图像模型进行视频特定的微调。
1.1K30编辑于 2023-11-08
来自专栏机器之心
微软NaturalSpeech 2来了，基于扩散模型的语音合成
为此，该联合研究团队在2023年推出了 NaturalSpeech 2，利用扩散模型（diffusion model）实现了 zero-shot 的语音合成，只需要几秒钟的示例语音（speech prompt 在推理时，利用潜在扩散模型和神经语音解码器从文本生成语音的波形。 2. 采用扩散模型替代自回归语言模型。通过非自回归的生成方式，能避免自回归模型中的错误累积所导致的韵律不稳定、重复吐次漏词等问题。 3. 引入语音提示机制，激发上下文学习能力。图3：NaturalSpeech 2 中的语音提示机制得益于以上设计，NaturalSpeech 2 生成的语音非常稳定、鲁棒，无需要复杂的两阶段模型来预测中间表征序列。表5：NaturalSpeech 2 与语音提示的韵律相似度比较表6：NaturalSpeech 2 的主观相似度评分 SMOS 结果在稳定度方面，相较于既有的 TTS 模型，NaturalSpeech
1.7K30编辑于 2023-05-16
来自专栏DrugOne
思维的扩散，扩散语言模型中的链式思考推理
近来，扩散模型因在视觉领域的成功和相对于自回归模型的独特建模优势而在文本处理中引起了兴趣。尽管它们尚未达到现有自回归LLMs（如GPT-4）的规模和能力，但这些模型已经展示出与GPT-2相当的性能。为了针对复杂查询，DoT不使用基于梯度的分类器引导，而是使用无分类器引导训练和采样去噪模型，以提供更可靠的控制信号。方法图 2 DOT的流程如图2所示。具体来说，在第一轮中，作者通过模型生成第一个理由r1。然后将r1与s作为条件[s; r1]连接起来，通过模型采样得到r2。通过多次迭代，可以得到最终答案。这就是为什么作者开始通过使用预训练的扩散模型进行进一步的微调探索。表 2 作者将DoT扩展到预训练的扩散语言模型Plaid 1B并在更复杂的推理任务上进行评估，即GSM8K。在表2中，与不使用CoT/DoT相比，自回归模型和扩散模型在使用CoT或DoT进行微调时都显示出显著提高的性能。这表明增加的计算（推理时间）带来了实质性的好处。
64410编辑于 2024-03-26
来自专栏技术汇总专栏
从DDPM到LDM扩散模型的演进与优化解析【扩散模型实战】
扩散模型近年来在生成模型领域取得了令人瞩目的成果。本文将对扩散模型的演变进行深入探讨，并结合代码实例帮助理解其核心原理。1. 7.3 更智能的反向扩散算法反向扩散过程是扩散模型生成数据的核心步骤之一。传统的反向扩散依赖于高斯噪声的逐步去除，但这一过程可能在特定步骤中引入错误的恢复信息。为了提升反向扩散的稳定性，可以结合强化学习（Reinforcement Learning, RL）或自适应优化（Adaptive Optimization）等智能算法，动态调整每一步的噪声去除策略。实际应用中的挑战与解决方案8.1 扩散模型的计算瓶颈尽管LDM在效率上比DDPM有了很大提升，但在处理超高分辨率数据时，扩散模型依然存在较大的计算开销。
3.6K20编辑于 2024-09-09
来自专栏AI算法能力提高班
DDIM | 隐式扩散模型原理
://arxiv.org/abs/2010.02502 code https://github.com/ermongroup/ddim ---- Abstract DDIMs是一个更高效的迭代隐式概率模型，和DDPMs采用相同的训练过程 DDIMs通过一个非马尔可夫的扩散过程，从而实现相同的训练目标。这些非马尔可夫过程可以对应于确定性的生成过程，从而产生能更快地生成高质量样本的隐式模型 DDIMs相对DDPMs，生成样本的速度快了10x，甚至50x，可以生成高质量样本，最重要的是实现了inversion 隐空间重建与插值 Related Work DDPM Methodology Overview image-20230927100244641 NON-MARKOVIAN FORWARD PROCESSES 扩散前向过程不再是马尔科夫过程由此产生的模型成为隐式概率模型，其中样本从潜在变量生成，其固定程序为(从 xT 到 x0） image-20230927103549942 当 η = 1 时为 DDPM，当 η = 0 时为 DDIM
2.5K20编辑于 2023-09-28
来自专栏AiCharm
Diffusion Model 扩散模型速览
2.Stable Diffusion 稳定扩散稳定扩散的原始名称是“潜在扩散模型”（LDM）。顾名思义，扩散过程发生在潜在空间中。这就是它比纯扩散模型更快的原因。潜扩散将图像编码为潜在数据后，将在潜在空间中进行正向和反向扩散过程。稳定扩散模型概述前向扩散过程 → 向潜在数据添加噪声。反向扩散过程 → 从潜在数据中去除噪声。训练稳定扩散模型的训练目标训练目标（损失函数）与纯扩散模型中的目标非常相似。唯一的变化是：输入潜在数据 zₜ 而不是图像 xₜ。向 U-Net 添加了条件输入 θ(y)。 Sampling 采样稳定的扩散采样过程（去噪）由于潜在数据的大小比原始图像小得多，因此去噪过程会快得多。架构比较最后，让我们比较一下纯扩散模型和稳定扩散模型（潜在扩散模型）的整体架构。纯扩散模型纯扩散模型架构 Stable Diffusion 稳定扩散稳定的扩散架构
2K30编辑于 2023-05-15

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

机器学习探索稳定扩散：前沿生成模型的魅力解析

【他山之石】Stable Diffusion 万字长文详解稳定扩散模型

扩散模型新突破！无需微调，就能高效稳定移除目标物体

Stability AI发布基于稳定扩散的音频生成模型Stable Audio

GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

扩散模型介绍

扩散模型最新综述！

详解 Diffusion (扩散) 模型

Diffusion扩散模型介绍

扩散模型 Diffusion Model

stable diffusion的Unet的详解和稳定扩散

2D 扩散模型 + Nerf，实现文本生成 3D 模型

【综述专栏】视频扩散模型！

DDPM | 扩散模型代码详解

ICCV 2023 | Pix2Video: 基于扩散模型的视频编辑

微软NaturalSpeech 2来了，基于扩散模型的语音合成

思维的扩散，扩散语言模型中的链式思考推理

从DDPM到LDM扩散模型的演进与优化解析【扩散模型实战】

DDIM | 隐式扩散模型原理

Diffusion Model 扩散模型速览

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

机器学习探索稳定扩散：前沿生成模型的魅力解析

【他山之石】Stable Diffusion 万字长文详解稳定扩散模型

扩散模型新突破！无需微调，就能高效稳定移除目标物体

Stability AI发布基于稳定扩散的音频生成模型Stable Audio

GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

扩散模型介绍

扩散模型最新综述！

详解 Diffusion (扩散) 模型

Diffusion扩散模型介绍

扩散模型 Diffusion Model

stable diffusion的Unet的详解和稳定扩散

2D 扩散模型 + Nerf，实现文本生成 3D 模型

【综述专栏】视频扩散模型！

DDPM | 扩散模型代码详解

ICCV 2023 | Pix2Video: 基于扩散模型的视频编辑

微软NaturalSpeech 2来了，基于扩散模型的语音合成

思维的扩散，扩散语言模型中的链式思考推理

从DDPM到LDM扩散模型的演进与优化解析【扩散模型实战】

DDIM | 隐式扩散模型原理

Diffusion Model 扩散模型 速览

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Diffusion Model 扩散模型速览