搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈技术
AI短视频制作一本通：文本生成视频、图片生成视频、视频生成视频
这项技术在广告、教育、娱乐等领域有着广泛的应用，可以快速生成吸引人的视频内容。2. 工作流程文本生成视频的工作流程通常包括以下步骤：步骤1：文本处理首先，您需要准备要转化为视频的文本内容。步骤2：图像生成文本生成视频通常伴随着图像的生成，这些图像可以是背景图片、文本框、图标等。您可以使用图像处理工具或库来生成这些图像，根据文本内容选择合适的图像元素。常见的编解码器包括H.264和H.265，它们可以影响视频文件的大小和质量。2. 生成对抗网络 (GANs) : GANs包括生成器和判别器两个神经网络，它们相互竞争，生成器试图生成逼真的图像或视频，而判别器试图分辨真实的图像或视频。这种竞争促使生成器不断提高生成质量。2. 步骤2：训练生成模型使用生成对抗网络或其他深度学习模型，对视频数据进行训练。模型将学会从输入数据生成逼真的视频。步骤3：生成新视频一旦训练完成，您可以使用生成模型来合成新的视频内容。
3.5K62编辑于 2023-11-07
来自专栏程序那些事儿
Runway Gen2：AI视频生成的未来
Runway Gen2 是一种由 Runway Research 开发的新的文本到视频生成器。它是第一款公开可用的文本到视频模型，能够“真实和一致”地合成新视频。突破 Gen2 的突破在于它能够生成逼真和一致的视频。这要归功于其使用了一种新的深度学习模型，该模型能够学习从文本和视频中捕捉信息。该模型由一个巨大的数据集训练，该数据集包括图像、视频和文本。使用方式 Gen2 提供了多种生成视频的方式，你可以直接通过文本描述来生成一段视频，当然，你也可以根据图片和文字的描述来生成视频，此外，你还可以通过对视频进行神奇描绘来生成视频。配合着类似 midjourney 等图片生成工具，你完全可以制作自己的动画视频。应用 Gen2 具有广泛的应用前景。它可用于：创意表达，创建新的艺术作品、视频游戏、电影等。随着模型的改进，Gen2 将能够生成更加逼真和逼真的视频。然而，Gen2 也面临一些挑战。例如，Gen2 生成的视频可能存在偏见或错误。此外，Gen2 可能被用于生成虚假或误导性的视频。
1.2K10编辑于 2023-11-30
Veo2与Imagen3视频图像生成技术
使用Veo 2和Imagen 3实现先进的视频与图像生成Veo 2：最先进的视频生成Veo 2能够创建涵盖广泛主题和风格的高质量视频。在与领先模型进行的人工评估对比中，Veo 2取得了最先进的结果。 Veo 2理解电影摄影的独特语言：在提示中指定类型、镜头或电影效果，Veo 2将以最高4K分辨率、长达数分钟的长度生成相应内容。视频模型常产生“幻觉”（如多余手指或意外物体），Veo 2较少出现此类问题，使输出更真实。安全与负责任开发的理念指导了Veo 2。与所有图像视频生成模型一样，Veo 2的输出包含不可见的SynthID水印，用于标识AI生成内容，减少错误信息和归属错误的风险。新版Veo 2能力已上线Google Labs的视频生成工具VideoFX，并扩大了访问用户范围。可访问Google Labs加入等待名单。
10710编辑于 2026-04-10
来自专栏开源心路
AI生成视频-Pika
背景介绍 Pika 是一个使用 AI 生成和编辑视频的平台。它致力于通过 AI 技术使视频制作变得简单和无障碍。大拇指向下告诉机器人(和 Pika 实验室团队)Pika 做了一些丑陋、错误的东西,或者视频完全没有移动。重新生成 - 重复提示使用相同的提示词和参数再生成一个视频。在这个命令中，你通常看到的 “+1 more” 变成了 “+2 more”，因为这个命令有两个额外的选项。首先，你需要填写 “message” 栏。这是 PIKA 将用作你生成内容中的元素的文本。你可以用 0, 1, 2 三个数字来设置。默认值是 1。但由于我们没有上传起始图像，所以使用 “-w” 选项没有任何意义。对于第三次生成，我们将使用 “-camera rotate clockwise” 选项。注意：以上步骤中的每一个生成命令都应该以回车键结束，这样 PIKA 才会开始生成你的视频片段。
2.1K10编辑于 2023-12-06
来自专栏CreateAMind
Attribute2Image: 根据要求属性生成图片-视频及代码
Attribute2Image: Conditional Image Generation from Visual Attributes 视频介绍：网络架构图 ? 效果展示： ? ? 阅读原文看代码和论文：https://sites.google.com/site/attribute2image 代码：https://github.com/xcyan/attr2img/ paper：
94020发布于 2018-07-25
来自专栏ZackSock
Python生成字符视频
Python生成字符视频一、前言在之前也写过生成字符视频的文章，但是使用的是命令行窗口输出，效果不是很好，而且存在卡顿的情况。于是我打算直接生成一个mp4的字符视频。 2.6、读取视频读取视频的操作一般是通用的，代码如下： import cv2 # 读取视频 cap = cv2.VideoCapture('1.mp4') # 获取视频的帧率 fps = cap.get 2.7、写入视频写入视频的操作也是常规代码： import cv2 fourcc = cv2.VideoWriter_fourcc(*'mp4v') writer = cv2.VideoWriter( 因此需要注意，虽然我们生成的图片看起来单调，但是当font_size设置为5时，得到的图片已经比较大了。因此当你生成长时间的视频时，会花费比较多的时间，生成的视频也比较大。生成的字符画可以看到效果还是很不错的。五、生成字符视频有了上面的代码，我们就可以对整个视频进行转换了。
91050发布于 2021-05-18
来自专栏编码如写诗
微软深夜炸场：Sora 2全员免费+无限生成AI视频创作
微软将Sora 2的强大能力封装在最简单的交互中，让专业级视频创作的门槛降至零。 2. 自带音效的视频生成 Sora 2最大的突破在于原生视听整合。与以往"先生成视频，再配音轨"的分离流程不同，Sora 2能够：自动生成匹配画面的音效（海浪声、脚步声）合成自然的人声对话生成贴合情绪的背景音乐这种"画音一体"的生成能力，让视频内容具备了完整的叙事感染力成本控制的技术逻辑 AI视频生成是算力密集型任务。Sora 2生成一段5秒视频，需要消耗大量GPU算力。微软如何承担"无限慢速生成"的成本？快速生成多个版本的广告视频 A/B测试的成本大幅降低个性化营销视频的批量生产 2. 实现与专业剪辑软件的无缝衔接多角色协同多个角色在视频中互动复杂剧情的自动生成 2.
92610编辑于 2026-03-27
来自专栏算法一只狗
Step-Video-T2V：全球最强开源视频生成
其覆盖的领域包含了语音、图片、视频理解和生成等。就在2月中，其就发布了Step-Video-T2V，号称全球最强的开源视频模型。 1 级别的生成质量- 仍需突破长时间一致性和复杂推理的难题目前的视频生成模型，大部分都不能够做到生成复杂的一些序列动作，比如像之前Sora这样的模型它对于“体操表演”这种动作也难以控制而Step-Video-T2V 虽然暂时无法达到能够Level-2的水平，但是在视频生成的可控性、物理一致性和长时序建模能力上有一进步的提升。）组合策略，形成一个端到端的文本到视频（T2V）生成框架。 Video Bench，是当前文本到视频（T2V）生成任务的一个重要基准。
2.7K10编辑于 2025-03-22
来自专栏AI算法能力提高班
VideoCrafter | 图文生成视频
模型可以生成高质量的视频，但是不开源，无法研究 VideoCrafter开源了2个模型，Text2Video和Image2Video，其中I2V可以生成1024X576高分辨率的电影质量的视频，在质量上超过其它开源模型（I2V模型输入为text和reference image） Contributions T2V模型可以生成高分辨率高质量视频，训练集集为2千万视频和6亿张图像 I2V模型可以很好的保留参考图像的内容、：video vae 和 video diffusion video vae 负责降低采样维度视频数据X0喂给VAE编码器E，映射到隐层Z0，其可以以低维表示压缩的视频表征 Z0通过解码器D反映射会视频数据空间进行去噪，最后通过VAE解码器在像素空间生成视频采用3D U-Net架构，包含了时间维度 Denoising 3D U-Net 每一个block包含卷积层、空间变换ST、时间变换TT image-20231108112046340 主要在语义水平表征视频内容，同时很少捕捉细节。
2.4K20编辑于 2023-11-09
来自专栏AI算法能力提高班
视频生成 | 群魔乱舞
骨架驱动的人形动画生成输入人脸图像+视频动画或者文本描述输出视频原理简介人类舞蹈视频生成框架，它基于扩散模型（Diffusion Models，DM）。旨在根据目标身份和姿势序列生成高质量的定制化人类视频。使用Minigpt-v2作为视频描述器，生成关键帧的详细描述。用户可以通过输入文本提示、面部图像或服装图像来生成特定人物的视频。实验结果：能够根据指导序列和简单的内容描述（文本提示、图像提示或文本和图像提示）生成高质量和逼真的视频。总的来说，是一个基于扩散模型的人类视频生成框架，它通过结合文本提示、图像提示和姿势序列来生成定制化的人类视频，具有较高的灵活性和泛化能力。
65820编辑于 2024-01-18
来自专栏合集
moviepy，短视频生成
简单说，moviepy可以作为服务端的视频处理，在服务端完成简单的处理，流水线工作。而且考虑到实际上所有的视频处理最后都追踪到底层的数据处理，理论上知晓视频处理的原理，可以完成甚至开发新的功能。 pip安装 pip install moviepy即可完成安装 opencv opencv也是我们最常用的视频读写库，但是opencv很明显，不太适合简单的视频剪辑，而更适合视频处理的用户，比如完成运动目标检测 /origin/1.mp4') # 读取视频 todo = clip.subclip(0, 5) # 截取视频的前5秒 time_length = clip.duration # 拿到视频的时长生成列表 random_list = random.sample(count_list, 9) # 从列表中随机选取9个，共计90s bg_audio = editor.AudioFileClip /output/1.mp4', threads=16) # 以16个线程保存视频这将是一个有趣的东西，计划完成到自动生成营销短视频的程度！
2K20发布于 2021-01-08
来自专栏技术分享
智谱AI：CogVideoX-2b——视频生成模型的得力工具
智谱AI公布了一项激动人心的技术创新：他们决定将他们开发的视频生成模型CogVideoX的源代码对外公开。这种技术能够将视频数据的体积压缩到原来的2%，极大地减少了处理视频所需的计算资源，同时保持了视频帧与帧之间的连贯性。这种技术的应用有效避免了在视频生成过程中可能出现的闪烁现象，保证了视频的流畅播放。这项技术使得模型在处理视频数据时，能够更加精准地捕捉到时间维度上帧与帧之间的关系，建立起视频中的长期依赖关系。这样的设计使得生成的视频序列更加流畅和连贯，提高了观看体验。在提高视频生成的可控性方面，智谱AI开发了一个端到端的视频理解模型。这个模型能够为视频数据生成精确且与视频内容紧密相关的描述。通过以上步骤，你可以成功部署并运行CogVideoX，生成高质量的视频内容。
80210编辑于 2024-09-24
来自专栏量子位
“视频领域的Midjourney”！AI视频生成新秀Gen-2内测作品流出，网友直呼太逼真
丰色发自凹非寺量子位 | 公众号 QbitAI 号称可以一句话拍大片的AI视频生成工具Gen-2，开始露出庐山真面目。有推特博主已经率先拿到了内测资格。有网友看完这组作品直呼：太不可思议了吧，只靠文字提示就能生成这样的结果！还有人直言：这是视频领域的Midjourney来了。博主实测Gen-2 这位博主名叫Nick St. AI视频生成也狂飙专攻视频生成的AI工具Gen-2于3月20日发布（论文3月11号）。作为AIGC领域的新秀，它的迭代速度和质量也是相当快了： Gen-1版本2月才刚诞生，那会还只能对已有视频进行编辑；现在Gen-2就已经可以用文字和图像作为提示词直接生成视频了。只用16句简单描述，它就能get一段长达11分钟的动画：在往前一点儿，就在Gen-2发布同一天，阿里达摩院也开源了17亿参数的文本转视频AI：效果是酱婶的： …… 可以预见，不止图像生成，视频领域也要变得热闹起来了
72930编辑于 2023-04-13
来自专栏机器之心
Meta生成式AI连放大招：视频生成超越Gen-2，动图表情包随心定制
机器之心报道编辑：张倩、陈萍生成式 AI 进入视频时代了。提到视频生成，很多人首先想到的可能是 Gen-2、Pika Labs。虽然这些模型可以通过使用视频 - 文本对进一步适用于文本 - 视频（T2V）生成，但视频生成在质量和多样性方面仍然落后于图像生成。：(1) 根据输入的文本提示生成图像；(2) 根据图像和文本的强化条件生成视频。这使得 EMU VIDEO 即使在训练数据、计算量和可训练参数相同的情况下，也能超越直接 T2V 方法。这项研究表明，通过多阶段的训练方法，文生视频的生成质量可以得到大幅提高。除 T2V 外，EMU VIDEO 还可用于图像 - 视频生成，即模型根据用户提供的图像和文本提示生成视频。在这种情况下，EMU VIDEO 的生成结果有 96% 优于 VideoComposer。
56610编辑于 2023-11-18
来自专栏AI绘画
谷歌 Veo 2 视频生成模型入驻 Gemini，开启 8 秒 720p 视频创作新时代
一、产品介绍谷歌 Veo 2 是一款基于先进人工智能技术的视频生成模型，自 2025 年 4 月 16 日起，谷歌宣布将 Veo 2 视频生成 AI 模型带给 Gemini Advanced 订阅用户。 Veo 2 的工作原理与包括 OpenAI 的 Sora 在内的其他视频生成器类似，用户只需输入描述视频内容的文本，谷歌数据中心便会通过处理 Token 生成动画。 Veo 2 的设计兼顾了对真实世界物理规律的充分理解，尤其是对人类运动方式的把握。二、主要功能文本生成视频：用户可以通过输入详细的文字描述来生成相应的视频。图片转视频：除了文本生成，Veo 2 还支持图片转视频功能，这为创作者提供了更多的创作灵活性。用户可以将已有的图片作为基础，通过 Veo 2 生成动态视频，进一步拓展创意空间。总之，谷歌 Veo 2 视频生成模型的入驻，为 Gemini 平台增添了强大的视频创作能力，为用户带来了便捷、高效、高质量的视频生成体验。
92610编辑于 2025-04-25
来自专栏AI技术探索和应用
浅析SORA视频生成原理
最新能力突破（1）画质突破：视频非常高清，细节极其丰富；（2）帧率和连续性突破：视频帧率高、连续性好（无闪烁或明显的时序不一致）；（3）时长突破：相比之前t2v模型仅能生成几秒的时长，Sora可以生成长达 1分钟的视频，这是之前t2v模型不敢想象的；（4）物理规则理解突破：视频中物体的运动、光影等似乎都非常符合自然世界的物理规则，整个视频看上去都非常自然和逼真。（3）Visual Decoding 第（2）步中，diffusion transformer可以生成的其实不是像素空间的视频，而是隐空间的视频表征（denoised patches），这些patches （2）Sora有很强的语言理解能力训练t2v模型需要大量带有文本标注的视频，OpenAI采用DALL·E 3中的re-captioning技术来解决。总结一下主要是：（1）对世界的物理规则的理解还不完美；（2）长视频生成时容易出现不连贯或者物体凭空出现的现象。
1.8K20编辑于 2024-03-14
来自专栏算法一只狗
CoDeF解决生成视频“闪烁”问题
还记得我之前曾经介绍过的一个模型Rerender，这个AI模型能够有效的解决视频生成中“闪烁”问题。可以看到，生成的视频很丝滑，而且人物的动作衔接的很连贯。那我们可以先来看看它生成视频的效果：在对于人物的转换上，也表现出很丝滑的效果，动作和形态都比较相似：不仅仅在人物生成上，风景的风格转换也表现很出色：网友看了都直呼应用效果效果确实很好这是疯了把！这就是AI视频生成的未来那这个模型到底是什么做到的呢？从官方文档中介绍，CoDef是内容变形场的缩写（content deformation field），它将输入视频分解为2D内容规范场（canonical content field）和3D时间形变场（文件然后再生成canonical图片，执行代码后会在results文件夹下生成canonical_0.png第三步，生成视频然后我们可以把自己所要生成的风格图片上传上去，这里可以用Stable Diffusion
61420编辑于 2024-10-09
来自专栏算法一只狗
AI解决生成视频“闪烁”问题
在上一期中，我曾经介绍了用ControlNet结合Mov2Mov插件生成新的视频。虽然它能够快速的对视频中的人物进行转换，但是还存在难以解决的闪烁问题。首先来看看他们生成的视频效果：可以看到，生成的视频很丝滑，而且人物的动作衔接的很连贯。这样的前景大有用途，我们久可以利用现有的视频生成不同另一种不同的风格。比如把一个雕像转换成一个真实的人物也是轻而易举：从放出的论文中可以看出，作者把这个方法称为“零样本文本指导视频翻译”方法。利用上面的方法进行生成后，在连续的十几秒中，每一幅图片的细节都生成相似，就能够有效缓解视频闪烁的情况出现。下图是作者对比Stable-Diffusion的结果：当然，在不同的模型比较上，该作者提出的方法在生成视频的稳定性上效果明显提高：同时，在输入文本中仅需更改几个词语，在视频背景保持不变的情况下，可以不断的调节视频中的细节
91920编辑于 2024-10-10
来自专栏算法一只狗
Stable Diffusion用来生成视频
之前我曾经多次介绍过，可以一键生成视频的模型。包括能够有效解决视频闪烁的Rerender A Video模型还有开源的CoDeF模型：这些模型要不就是没有开源，要不就是有一定的上手难度。它是由Stability AI发布的，一个基于图像模型稳定扩散的生成视频模型。目前它已经提供了相应的模型和开源代码，普通人可以在20秒内简单上手。稳定视频扩散以两种图像到视频模型的形式发布，能够以每秒 3 到 30 帧之间的可定制帧速率生成 14 和 25 帧。比如下面的这个视频，可以看到人物的眼睛有一个明显的上移。风景图片转换这里上传了一张蓝色汽车的图片。从视频效果中可以看到，生成的效果使得汽车在运动，且车速较快，因为它的运动模糊效果很强烈。比如上传的是一张静态的烟花图：它则能够模拟出烟花的动画效果：未来计划目前仅仅开源了图片生成视频模型，但是未来将会把文本生成视频模型也一并开源。目前可以加入到它的waitlist中尝试一下。
78810编辑于 2024-10-01
来自专栏翩翩白衣少年
MuseV：不限视频时长的AI视频生成工具
项目介绍 MuseV 是一个基于扩散模型的虚拟人视频生成框架。它采用了新颖的视觉条件并行去噪方案，支持无限长度视频的生成。提供了预训练的虚拟人视频生成模型，具备 Image2Video、Text2Image2Video 和 Video2Video 等强大功能。特色功能 • 无限长度视频生成：打破传统视频长度限制，让你的创意无限延伸。 • 多种功能模式：Image2Video、Text2Image2Video、Video2Video，满足不同创作需求。在更大、更高分辨率、更高质量的文本视频数据集上进行训练可能会使 MuseV 更好。 • 有限类型的长视频生成。视觉条件并行去噪可以解决视频生成的累积误差，但当前的方法只适用于相对固定的摄像机场景。总结 MuseV 以其无限长度视频生成以及对 Stable Diffusion 生态的支持以及多参考图像技术，成为视频生成领域的新兴力量。
2K10编辑于 2024-04-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

AI短视频制作一本通：文本生成视频、图片生成视频、视频生成视频

Runway Gen2：AI视频生成的未来

Veo2与Imagen3视频图像生成技术

AI生成视频-Pika

Attribute2Image: 根据要求属性生成图片-视频及代码

Python生成字符视频

微软深夜炸场：Sora 2全员免费+无限生成AI视频创作

Step-Video-T2V：全球最强开源视频生成

VideoCrafter | 图文生成视频

视频生成 | 群魔乱舞

moviepy，短视频生成

智谱AI：CogVideoX-2b——视频生成模型的得力工具

“视频领域的Midjourney”！AI视频生成新秀Gen-2内测作品流出，网友直呼太逼真

Meta生成式AI连放大招：视频生成超越Gen-2，动图表情包随心定制

谷歌 Veo 2 视频生成模型入驻 Gemini，开启 8 秒 720p 视频创作新时代

浅析SORA视频生成原理

CoDeF解决生成视频“闪烁”问题

AI解决生成视频“闪烁”问题

Stable Diffusion用来生成视频

MuseV：不限视频时长的AI视频生成工具

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐