首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 视频理解与生成技术突破

    视频理解与合成技术进展在今年的计算机视觉与模式识别会议(CVPR)上,某中心视频团队展示了四篇论文,涵盖了我们在前沿问题研究上的广泛工作范围。 值得注意的是,在视频理解(LVU)数据集的七个分类任务和两个回归任务中,我们学习的表示平均提高了7.9%和9.7%。这项工作朝着构建首个通用电影理解基础模型迈出了重要一步。 选择性结构化状态空间模型在另一篇论文《选择性结构化状态空间用于视频理解》中,我们扩展了最近提出的S4模型,采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。 降低视频理解的模型复杂性在某中心视频,我们正在开发最先进的AI模型用于电影内容理解,以促进各种下游用例。实现这一目标的关键技术问题之一是有效建模复杂的时空依赖关系,特别是在视频如电影和电视节目中。 为了解决这一挑战,我们提出了一个新颖的选择性S4(即S5)模型,它采用轻量级掩码生成器自适应选择信息丰富的图像标记,从而更有效地建模视频中的长期时空依赖关系。

    15210编辑于 2025-10-16
  • 来自专栏机器之心

    用AI短视频「反哺」视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

    机器之心专栏 机器之心编辑部 在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的视频时,却显得力不从心。 究其原因,导致模型理解视频困难的一个主要原因是缺乏高质量、多样化的视频数据资源,而且收集和注释这些数据需要庞大的工作量。 方法概述 MovieLLM 巧妙地结合了 GPT-4 与扩散模型强大的生成能力,构造了高质量、多样性的视频数据与 QA 问答来帮助增强大模型对视频的理解。 而针对于视频理解,当前并没有工作提出测试基准,因此本文还提出了一个测试视频理解能力的基准。 在基于视频生成的性能基准上,在五个测评方面都获得了性能提升。 在视频理解方面,通过 MovieLLM 的训练,模型在概括、剧情以及时序三个方面的理解都有显著提升。

    44710编辑于 2024-03-18
  • ICCV 2025 | 视频生成迈入“多段一致”新时代!TokensGen用“压缩Token”玩转视频生成

    对于视频,我们将其分割为短视频片段,每个片段通过Tokenizer生成一系列语义Token ,形成整个视频的高效高层表示。 视频编辑 除生成全新内容外,本文的方法可灵活适配多种视频编辑场景。To2V 模型能够将文本提示与源视频数据结合,在保留原始素材核心结构的同时注入新语义。 如下图 8 所示,直接将目标文本提示与源视频作为输入条件生成编辑后的视频。更多结果详见项目网页。 策略维持时序连续性,从而解决视频生成中的片段语义控制、长程连贯性与平滑过渡等关键挑战。 该流程可高效扩展预训练短视频模型至视频场景,实现可扩展、灵活且资源高效的生成方案。

    74510编辑于 2025-08-27
  • 来自专栏开源服务指南

    AI 图像与视频生成:支持动漫风格 | 开源日报 No.296

    提供视频生成和图像合成等功能。 通过重构架构以提高计算性能。 支持视频生成等创新功能。

    43810编辑于 2024-07-10
  • 来自专栏小灰灰

    Java 实现图文生成

    图文生成 很久很久以前,就觉得微博的图文实现得非常有意思,将排版直接以最终的图片输出,收藏查看分享都很方便,现在则自己动手实现一个简单版本的 目标 首先定义下我们预期达到的目标:根据文字 + 图片生成长图文 目标拆解 支持大段文字生成图片 支持插入图片 支持上下左右边距设置 支持字体选择 支持字体颜色 支持左对齐,居中,右对齐 预期结果 我们将通过spring-boot搭建一个生成长图文的http接口,通过传入参数来指定各种配置信息 设计&实现 图文的生成,采用awt进行文字绘制和图片绘制 1. ImgCreateOptions { /** * 绘制的背景图 */ private BufferedImage bgImg; /** * 生成图片的宽 BufferedImage result 如果result为空,则直接生成 如果最终生成的高度,超过已有画布的高度,则生成一个更高的画布,并将原来的内容绘制上去 迭代绘制单行内容 public Builder

    2.1K70发布于 2018-02-06
  • 来自专栏IT小侠公社

    视频压缩工具压缩之后,可发朋友圈的视频神器

    哈喽,这几天天气真的让人烦躁,想好好的出去玩玩都不行,每次外出拍了一段视频想分享到朋友圈总是分享不出去。 ? 微信朋友圈可以发不限制时长的视频,大小只要在4M以内就可以了,所以今天这款软件就到了发挥作用的时候了 ? 所以今天橙c给大家带来一款视频压缩软件。 使用方法点击添加视频就按照提示操作就可以了哈,很简单! ? ? 来看看压缩前效果: ? 在看看压缩后效果: ? 在来看看视频压缩前后大小 ? ? 画质还是相当可以了经过测试,同一个视频使用Media Coder的H265压缩文件大小为11MB左右,使用ShanaEncoder压缩文件大小为6MB左右 ? END 本期所需工具 「视频压缩软件」

    10.7K2017发布于 2019-06-12
  • 来自专栏刘旷专栏

    视频又添新变数

    正是深受这种降本增效的思维影响,广告主对待视频的态度已经发生变化。 而事实证明,短视频广告确实比视频广告效果要有优势。看真实数据,数字广告公司VidMob最新研究指出,短视频的购买率比视频高167%。尤其是像抖快这类大流量短视频平台,其广告的转化效果更为显著。 看观众反应,大部分用户对视频广告和短视频广告的态度截然不同。这些年大众对于视频的“会员专属广告”多有吐槽,相反短视频博主将广告拍成段子、剧情等短小形式却多有共鸣。 可见,未来视频要挣到广告主们更多的钱恐怕不是件易事。会员对冲能力有限一直以来,国内视频平台的主要营收结构不外乎“广告+会员”,广告收入下降,要想保证总体营收稳定,势必要从会员方面尽量拉平。 就如爱奇艺和抖音的联合、腾讯视频正内测接入阿里的88会员等。说到底,在视频江湖中用户和流量始终是最宝贵的,无论是、短视频还是腾讯、阿里的牵手并不意外。

    49250编辑于 2022-11-17
  • 来自专栏用户6167002的专栏

    视频的日子,过得不如短视频舒坦

    视频领域,付费用户最关注的是独家的或者爆款视频内容,因此曾经的“视频一哥”,优酷付费用户增速放缓的原因也是缺乏引流的爆款剧或综艺。 其三,会员付费是视频网站最大的营收来源,腾讯视频、爱奇艺视频付费会员均超一亿而且会员费用合理上调扩大营收,唯独优酷仅透露付费会员增速,隐藏具体的付费用户量。 其四,高举高打迅猛发展的芒果TV在一众深陷亏损泥潭的视频网站中脱颖而出。2020年,平台芒果TV实现营业收入100.03亿元,同比增长23.36%;实现净利润17.75亿元,同比增长83.17%。 内容为王,寻求盈利 在竞争激烈的视频市场中,亏损的噩梦一直伴随着腾讯视频、爱奇艺、优酷等长视频平台。 腾讯视频官方透露,2019年亏损30亿,2020年财务情况并没公开。 在此困局下,各大视频平台在丰富视频内容吸引付费用户的同时,不忘注重成本增效以期尽快实现盈利,其中最直接的方式是上调会员价格。

    50610发布于 2021-08-10
  • 来自专栏机器之心

    视频生成可以无限?谷歌VideoPoet大模型上线,网友:革命性技术

    2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。 本周二,谷歌提出的视频生成大模型上线,立刻获得了人们的关注。 随着生成式 AI 的发展,最近出现了一波新的视频生成模型,这些模型展示了令人惊叹的画面质量。当前视频生成的瓶颈之一是产生连贯的大动作。 为了探索语言模型在视频生成中的应用,来自谷歌的研究者引入了一种大语言模型(LLM)VideoPoet,能够执行各种视频生成任务,包括文本到视频、图像到视频视频风格化、 视频修复和扩展,以及视频转音频。 视频 VideoPoet 还能生成视频,默认是 2 秒。通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频。 然后,谷歌为每个提示生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下面的最终视频。 方法简介 如下图所示,VideoPoet 可以将输入图像动画化以生成一段视频,并且可以编辑视频或扩展视频

    65110编辑于 2023-12-20
  • 来自专栏全栈技术

    AI短视频制作一本通:文本生成视频、图片生成视频视频生成视频

    第一部分:文本生成视频1. 文本生成视频概述随着人工智能(AI)技术的飞速发展,视频制作领域也迎来了创新的浪潮。文本生成视频是其中的一项令人激动的进展,它利用自然语言处理技术将文本内容转化为视频。 文本生成视频的应用非常广泛,可以根据不同场景和目的进行定制。第二部分:图片生成视频1. 图片生成视频原理图片生成视频是将一系列静态图片转化为视频的过程。在这一部分,我们将探讨图片生成视频的基本原理。 第三部分:视频生成视频1. 视频生成视频原理视频生成视频是一种使用人工智能技术合成新视频的方法。它借助生成对抗网络(GANs)和深度学习模型,可以用于各种应用,包括电影特效、艺术实验和视频内容生成。 步骤2:训练生成模型使用生成对抗网络或其他深度学习模型,对视频数据进行训练。模型将学会从输入数据生成逼真的视频。步骤3:生成视频一旦训练完成,您可以使用生成模型来合成新的视频内容。 您可以根据需要使用不同的生成模型和后期处理技术。这就完成了本指南的三部分:文本生成视频、图片生成视频视频生成视频

    3.3K62编辑于 2023-11-07
  • 来自专栏AIGC 先锋科技

    清华提出 Owl-1 全景世界模式:革新视频生成,重塑视觉体验 !

    尽管它们每次只能生成视频,但现有方法通过多次调用VGMs并以上一轮的最后一帧作为下一轮生成的条件,实现了视频生成。然而,最后一帧只包含了场景的短期细粒度信息,导致时段内的一致性问题。 视频生成方法通过改善生成视频的长度和一致性来解决这一问题,促进了诸如视频扩展[35]、电影生成[40]和世界模拟[24]等多种新兴任务的发展。 在本文中,作者提出了一种全方位世界模式(Owl1),用于生成长期连贯且全面的条件,以实现一致的视频生成。 作者的Owl-1利用上一帧的潜在状态和可选的图像条件来实现下一帧的一致且平滑的生成视频生成。作为视频生成模型应用范围的一个重要扩展,视频生成致力于提高生成视频的长度和一致性。 这里的关键挑战是确保时间上相隔较远的片段之间的一致性,以实现连贯的视频生成

    54510编辑于 2025-02-12
  • 来自专栏机器之心

    迈向长上下文视频生成!NUS团队新作FAR同时实现短视频视频预测SOTA,代码已开源

    然而,这种方式无法充分利用视频时上下文信息,容易导致生成内容在时序上出现潜在的不一致性。 解决这一问题的关键在于:高效地对视频进行训练。 我们特别区分了两个关键概念: 视频生成:目标是生成较长的视频,但不一定要求模型持续利用已生成的内容,因此缺乏时序的一致性。这类方法通常仍在短视频上训练,通过滑动窗口等方式延长生成长度。 长上下文视频生成:不仅要求视频更长,还要持续利用历史上下文信息,确保长时序一致性。这类方法需要在视频数据上进行训练,对视频生成建模能力提出更高要求。 条件 / 非条件视频生成的评测结果 基于条件帧的视频预测的评测结果 3)高效的视频训练与长上下文建模能力:FAR 支持高效的视频训练以及对长上下文建模。 此外,FAR 有效降低了视频生成的训练成本。在当前文本数据趋于枯竭的背景下,FAR 为高效利用现有海量视频数据进行生成式建模,提供了一条具有潜力的全新路径。

    36010编辑于 2025-04-24
  • 来自专栏刘旷专栏

    、中、短视频“再战”微短剧

    平台的调性和推荐机制会让同样的内容在不同的平台上有着天壤之别,最明显的表现就是,在、短视频平台的微短剧播放数据中,短视频普遍要比视频播放量要高。 对于视频平台而言,虽然内容资源优质,但其在微短剧商业模式的探索上却不尽如人意。 视频“强弱项”一直以来,视频平台在微短剧生产上都是以精品化为主,然而,高品质并不一定能换来高播放量,视频平台除了打造精品化内容外,还应辅以流量扶持,从而更好地促使剧集出圈。 竖屏微短剧继承了短视频高点击量、强沉浸的特点,然而最初入局微短剧赛道,视频平台主打的则是10-12分钟的横屏剧,其受众也还是原剧集的受众,而要想提升流量、拉新会员就需要“破圈”。 各方势力纷纷入场,视频平台的压力可想而知。而且,随着、中、短视频平台对微短剧的布局进一步加深,、中、短视频平台的生态也将互相侵蚀,边界也将愈发模糊。

    97820编辑于 2023-01-05
  • 来自专栏刘旷专栏

    芒果超媒的视频寒冬突围

    有意思的是,在过去一年中最让人意外的视频平台,却不是众所周知的“优爱腾”,而是此前名声不显的芒果超媒。 得益于过去一年亮眼的增长成绩,使其日渐发展成为今年长视频平台中最大的黑马。 视频黑马崛起背后的秘密 那么,芒果超媒凭什么在短短一年之内,就崛起成为视频平台中的黑马呢? 首先,是差异化的平台定位。 据芒果超媒出具的相关资料显示,芒果TV的内容成本和分销内容版权结转成本仅占其当期营收的36.5%,而爱奇艺的内容成本常年接近其总营收的80%以上,其他视频平台如腾讯视频、优酷的情况也基本类似,这种低成本优势也使其成为视频平台中唯一盈利的企业之一 从目前的行业格局来看,芒果的异军突起,已经成为视频领域的一大变数。 另外,阿里带来的资源加持,也为芒果在接下来的视频混战中杀出多有助益。 不过,从行业发展形势来看,中短视频已经成了视频平台下半场决胜的关键了。

    59340发布于 2021-01-14
  • 来自专栏AIGC 先锋科技

    HumanDiT 姿势引导框架来袭,支持多分辨率,序列视频生成精准又高保真 !

    首先,由于多个推理批次的存在,实现序列生成的时序一致性仍然是一个挑战。 为了应对这些挑战,作者提出了HumanDiT,这是一个适应性强的人体姿态引导动画框架,旨在处理不同分辨率和视频生成(最长可达20秒)。 3)作者引入了一个基于DiT的姿态生成模块和姿态 Adapter ,使HumanDiT能够支持多样化的应用,如视频连续播放和姿态转移。 UniAnimate [53]利用第一帧条件输入进行一致的视频生成。Mimicmotion [68]采用跨帧重叠扩散来生成扩展的动画视频。 为人类设计的渐进式视频生成技术 由于计算资源限制,生成长连续的视频序列一直是一个挑战。为了解决这个问题,HumanDiT简单地采用一个片段的最后一帧作为下一个片段的初始帧,并采用前缀潜在策略。

    78610编辑于 2025-03-17
  • 来自专栏ZackSock

    Python生成字符视频

    Python生成字符视频 一、前言 在之前也写过生成字符视频的文章,但是使用的是命令行窗口输出,效果不是很好,而且存在卡顿的情况。于是我打算直接生成一个mp4的字符视频。 2.6、读取视频 读取视频的操作一般是通用的,代码如下: import cv2 # 读取视频 cap = cv2.VideoCapture('1.mp4') # 获取视频的帧率 fps = cap.get 生成的尺寸我们先除了scale,然后再乘font_size。scale是原图的缩小程度,因为像素有很多,所以我们需要先把图片缩小。而为了让我们的字体显示更清楚,我们需要把生成的字符图片放大。 因此需要注意,虽然我们生成的图片看起来单调,但是当font_size设置为5时,得到的图片已经比较大了。因此当你生成长时间的视频时,会花费比较多的时间,生成视频也比较大。 生成的字符画 可以看到效果还是很不错的。 五、生成字符视频 有了上面的代码,我们就可以对整个视频进行转换了。

    86750发布于 2021-05-18
  • 来自专栏开源心路

    AI生成视频-Pika

    背景介绍 Pika 是一个使用 AI 生成和编辑视频的平台。它致力于通过 AI 技术使视频制作变得简单和无障碍。 Pika 1.0 是 Pika 的一个重大产品升级,包含了一个新的 AI 模型,可以在各种风格下生成和编辑视频,如 3D 动画,动漫,卡通和电影风格。 登录申请Pika Discord https://discord.gg/pika 试用交互命令行生成视频。 大拇指向下 告诉机器人(和 Pika 实验室团队)Pika 做了一些丑陋、错误的东西,或者视频完全没有移动。 重新生成 - 重复提示 使用相同的提示词和参数再生成一个视频。 对于第三次生成,我们将使用 “-camera rotate clockwise” 选项。 注意:以上步骤中的每一个生成命令都应该以回车键结束,这样 PIKA 才会开始生成你的视频片段。

    1.9K10编辑于 2023-12-06
  • 来自专栏合集

    moviepy,短视频生成

    简单说,moviepy可以作为服务端的视频处理,在服务端完成简单的处理,流水线工作。而且考虑到实际上所有的视频处理最后都追踪到 底层的数据处理,理论上知晓视频处理的原理,可以完成甚至开发新的功能。 pip安装 pip install moviepy即可完成安装 opencv opencv也是我们最常用的视频读写库,但是opencv很明显,不太适合简单的视频剪辑,而更适合视频处理的用户,比如完成运动目标检测 /origin/1.mp4') # 读取视频 todo = clip.subclip(0, 5) # 截取视频的前5秒 time_length = clip.duration # 拿到视频的时长 生成列表 random_list = random.sample(count_list, 9) # 从列表中随机选取9个,共计90s bg_audio = editor.AudioFileClip /output/1.mp4', threads=16) # 以16个线程保存视频 这将是一个有趣的东西,计划完成到自动生成营销短视频的程度!

    2K20发布于 2021-01-08
  • 来自专栏AI算法能力提高班

    视频生成 | 群魔乱舞

    骨架驱动的人形动画生成 输入 人脸图像+视频动画 或者 文本描述 输出 视频 原理简介 人类舞蹈视频生成框架,它基于扩散模型(Diffusion Models,DM)。 旨在根据目标身份和姿势序列生成高质量的定制化人类视频。 使用Minigpt-v2作为视频描述器,生成关键帧的详细描述。 用户可以通过输入文本提示、面部图像或服装图像来生成特定人物的视频。 实验结果: 能够根据指导序列和简单的内容描述(文本提示、图像提示或文本和图像提示)生成高质量和逼真的视频。 总的来说,是一个基于扩散模型的人类视频生成框架,它通过结合文本提示、图像提示和姿势序列来生成定制化的人类视频,具有较高的灵活性和泛化能力。

    61720编辑于 2024-01-18
  • 来自专栏AI算法能力提高班

    VideoCrafter | 图文生成视频

    pdf code https://github.com/ailab-cvc/videocrafter image-20231108102745812 Abstract 商用的Text2Video模型可以生成高质量的视频 ,但是不开源,无法研究 VideoCrafter开源了2个模型,Text2Video和Image2Video,其中I2V可以生成1024X576高分辨率的电影质量的视频,在质量上超过其它开源模型,而且是业内第一个开源的的 (I2V模型输入为text和reference image) Contributions T2V模型可以生成高分辨率高质量视频,训练集集为2千万视频和6亿张图像 I2V模型可以很好的保留参考图像的内容、 image-20231108111414839 video diffusion 对视频隐层Z0进行去噪,最后通过VAE解码器在像素空间生成视频 采用3D U-Net架构,包含了时间维度 Denoising 主要在语义水平表征视频内容,同时很少捕捉细节。

    2.3K20编辑于 2023-11-09
领券