Vidu 刚刚发布了全球首个【主体参照生成视频】新功能,太强了 赶紧上线体验一下了,以下是我的实际测试过程。
具体来说,Vidu 1.5版本在以下方面,实现了技术突破。 单主体100%精准控制 就单主体而言,只需上传特定主体不同角度、场景下的图片,Vidu就能100%精准控制每个细节。 一张特写,让科比重新回到「战场」,眨眼、微笑、自然摆臂动作,Vidu全部精准拿捏。 中国建筑构造的复杂程度,就不用多说了。那让Vidu生成雪景里的万象神宫,还能保留多少细节? 通过融合真实建筑和其他元素,Vidu能模拟出极其真实的场景。 人物面部特征和动态表情自然一致 Vidu做整体形象一致的同时,还应该实现面部特征和表情的自然连贯性。 百日进化,Vidu技术解析 如此惊艳的能力背后,其实Vidu也不过刚刚上线逾百日。 秉承通用性的理念,Vidu有和LLM一致的设计哲学: 统一问题形式:LLM将所有问题统一为(文本输入,文本输出),Vidu则将所有问题统一为(视觉输入,视觉输出); 统一架构:LLM和Vidu均用单个网络统一建模变长的输入和输出
Sora、可灵AI、Vidu、即梦AI、Runway、Luma、清影、Pika、Stable Video 近年来,AI生成视频工具迅速崛起,各种平台各显神通。但面对琳琅满目的选择,你是否感到无从下手? 本期 猫头虎 将为你深度解析 Sora、Runway、Stable Video、Luma、Pika、即梦AI、Vidu、清影、可灵 这9款热门AI视频生成工具,帮助你找到最适合自己的解决方案! 高清一致性强,支持复杂场景 清影 多样风格,适合普通场景 可灵 优秀质量,尤其在动画场景表现出色 质量排名: Sora 可灵 Vidu 即梦AI Runway Luma 清影 Pika Stable ,建议尝试 Stable Video、Vidu、清影。 追求高质量,推荐 Sora、可灵、Vidu。 对效率敏感,优选 清影、Pika、Vidu。 需要长时视频,首选 可灵。 希望这份对比分析能帮助你找到心仪的AI视频生成工具!
最近,我国自主研发的另一款文生视频大模型Vidu在2024年中关村论坛年会上首次亮相,这款模型以其“长时长、高一致性、高动态性”的特性引发了广泛关注。 清华大学人工智能研究院副院长、生数科技首席科学家朱军说,目前国内的视频大模型生成的视频时长大多为4秒左右,而Vidu则能够一次性生成长达16秒的视频。 他还强调,Vidu生成的视频画面连贯流畅,随着镜头的移动,人物和场景在时间和空间上都能保持高度一致性。 在动态表现力上,Vidu的能力超乎想象。 他还指出,由于Vidu采用了“一步到位”的生成方式,视频片段能从头到尾连续生成,避免了明显的插帧现象。 此外,Vidu还能生成如熊猫、龙等各种形象,点击下面链接可观看原视频: 据了解,Vidu的技术突破来自于团队在机器学习和多模态大模型方面的长期积累。
一.对标Sora,国产视频大模型Vidu亮相(1)Vidu发布背景Vidu是中国首个国产自研的视频大模型。Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。 (2)Vidu对标Sora的数据及成果Vidu支持一键生成长达16秒、分辨率高达1080p的高清视频内容。 然后,在视频效果方面,Vidu实现了显著提升,下面简要说明:①模拟真实物理世界:Vidu能够生成细节复杂的场景,且符合真实的物理规律,例如合理的光影效果、细腻的人物表情等;②具有丰富想象力:Vidu能够生成真实世界不存在的虚构画面 图10 Vidu宣传片中连续三张截图图像同时,Vidu生成的“真实”风格画面也远超其他国产视频大模型。 Vidu的发布,让中国大模型领域看到了更新的希望,也给足了发展的动力,相信Vidu的发布,只是中国大模型取得突破的一个开始。
Vidu正在用实力向世界诠释「中国速度」,领跑视频生成的下半场。 Vidu Q3的出世,标志着AI视频正式从「演技生成」,迈入「视听生成」的新时代。 它不再为单帧画面而生,而是为「剧」而生! Vidu Q3全球燃爆登场 16s一镜到底 现在,Vidu Q3已上线了文生音视频、图生音视频功能。 从Vidu.cn或Vidu API:platform.vidu.cn,抢先体验Vidu Q3全新功能 接下来,就是一波最全面的实测,看看Q3究竟有多强。 Vidu Q3在文字渲染上实现了质的飞跃——中、英、日三种文字精准呈现。 不论是五彩油漆泼洒出的「我爱Vidu」,还是深海鱼群排列出的「DEEP BLUE」,Q3都能在视频中,渲染出精确的文字。 现在,Vidu Q3 已全面上线文生音视频、图生音视频功能。 快去试试吧,感受「声画同出,创想无界」的震撼。
Sora推出两月后迎头赶上,Vidu的未来大有可为。 Sora在今年2月刚刚上线,2个月之后国内便有了Vidu,可见Vidu技术团队的效率之高。 据悉,Sora发布推出后,Vidu团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,在短短两个月进一步突破长视频表示与处理关键技术,研发推出Vidu视频大模型,显著提升视频的连贯性与动态性 概括说来,Vidu的快速突破,离不开算法原理,模型架构,算力资源,数据治理,工程实现这5大要素的完美结合。如今的Vidu正在加速迭代,未来还将兼容更广泛的多模态能力,为我们带来更多惊喜。 而Vidu的孵化者生数科技,自成立以来已经获得了多家知名产业机构的投资,完成了数亿元的融资,成为国内多模态大模型赛道的佼佼者。 从某种程度上说,Vidu很可能先走了一步... “Vidu,we do, we did, we do together”,这是在Vidu发布后,朱军教授在朋友圈写下的一段话。
这个AI视频的工具,来自Vidu。 在评论区的下面,哥们也在给所有喜欢做动漫风格的人,安利Vidu。 又是Vidu。 而对于Vidu来说,在我测试的这几个月里,Vidu的2D风格,就是现在最强的,也是他们之前,最大的特色。 而过往,风格一致性已经解决的还行了,角色一致性Vidu在今年7月份的更新中其实上了一版,而场景一致性,一直以来几乎没有任何解决方案。 这一波,Vidu1.5直接用最简单开箱即用的方式。 Vidu网址在此:www.vidu.studio 进去登录以后,就能看到这个参考生视频了,打开那个多主体一致性功能,你就可以传最多三张图片作为参考。 感谢Vidu,感谢这个多主体一致性。 我觉得,我又可以,继续造梦了。 国产的AI视频,也真的是越来越好了。 Vidu、可灵、海螺、即梦、pixverse,每一个都在市场上,杀出了自己的一条血路。
Vidu作为中国首个长时长、高一致性、高动态性的视频大模型,其发布标志着中国在人工智能领域的一个重要进步。 以下是对Vidu模型的几点看法: 视频效果 https://cloud.tencent.com/developer/video/80211 技术创新:Vidu模型融合了Diffusion与Transformer 性能突破:Vidu支持一键生成长达16秒、分辨率高达1080P的高清视频内容,这在视频生成领域是一个显著的性能提升。 文化元素:Vidu能够理解并生成具有中国特色的元素,如熊猫、龙等,这显示了该模型在文化适应性方面的优势。 国际竞争力:Vidu的性能全面对标国际顶尖水平,并在加速迭代提升中,展现了中国在全球人工智能竞争中的实力。
与此同时,在国内SuperCLUE的动漫与写实风格图生视频榜单中,Vidu Q1同样斩获双冠。 一、Vidu Q1产品解析:技术平权的「Q时代」宣言1.1 性能突破:双榜登顶背后的技术革新 Vidu Q1的“双冠王”成绩源于其底层技术的全面升级: • 1080P电影级画质:支持5秒高清视频直出 三、行业横向对比:Vidu Q1的突围之道3.1 技术维度:专项能力碾压式领先 评测指标 Vidu Q1 快手可灵1.6 字节即梦 结语:AI视频的「Q时代」已来 Vidu Q1的双榜登顶,标志着中国AI视频技术从“跟随”走向“引领”。 立即体验:登录Vidu官网或下载App,开启你的AI导演之路。
回顾 Vidu 的进化之路:2025 年 9 月,Vidu Q2 全球首发,以惊艳的图生视频、参考生视频能力技惊四座;12 月,Q2「生图全家桶」上线,首日突破 50 万次的使用量,印证了市场对高质量生成的渴望 昨天,Vidu Q2 参考生 Pro 正式发布。 登陆 Vidu.cn 或 Vidu API:platform.vidu.cn,体验最新产品功能。 视频编辑:不再「牵一发而动全身」 基于强大的视频参考能力,Vidu 让视频编辑告别了不可预测的抽卡。 我们先把这张静态照片交给 Vidu,让它生成一段基础视频: 可以看到,Vidu 不仅让小狗动了起来,更关键的是,它精准构建了画面的 3D 空间关系,不仅完美还原了周围环境,还保持了毛绒质感的稳定性。 Vidu Q2 参考生 Pro 这次更新的视频编辑功能直击痛点。
今天中午,Vidu突然发了他们的AI视频模型Vidu2.0。 AI视频领域真的卷麻了,比2023年的大模型还卷。 自从可灵1.6发了之后,明显感觉所有家都坐不住了,基本都把自己的牛逼货加速推了出来。 但是现在,Vidu直接走上了价格屠夫的新赛道。 把AI视频领域的不可能三角:便宜、速度、质量,Vidu在某种程度上,做到了可能。 最后,再看看质量。 前面其实也说了,是一个比较水桶的升级。 我就直接做了一些跟Vidu1.5的对比,来让大家直观的感受一下质量。 Vidu家的最牛逼的长板,就是美术还有2D、3D的动漫画风。 比如这个“黑悟空”里镜头。Prompt我就写了个“角色睁开眼睛”。 整体来看,Vidu这一波,在平衡速度和质量之后,还能有这么低的价格,在性价比上真有点儿当年DeepSeek那个味道了。
5个主体同框,Vidu Q1高可控震撼全场 GPT-4o生图热度还未过去,论坛上,国产AI黑马再次祭出AI视频生成新版本——Vidu Q1。 相较于Vidu 2.0,它在视频生成,高可控上再次迈向了一个全新的台阶。 去年4月,Vidu首次在中关村论坛亮相,仅用一年的时间,已经完成了超进化。 看的出,在面对多个场景的合成,Vidu Q1视频生成能力依旧能够保持高可控。 那么,它具体在哪些方面,实现了高可控一致性? Vidu Q1根据位置参考,场景中的角色很自然而然地,就把咖啡端了上来。 在运动布局方面,AI视频模型常见的通病是出现乱飞的现象,Vidu Q1可以做到精准可控。 另外,再多主体一致性,Vidu是率先发布,这一次再次升级。 如下,一共5个主体,一个参考场景,Q1能够做到可控的一致性。 此外,在音频可控上,Vidu Q1也能做到精准可控。
人物动作稳定 自媒体短视频、小型广告 最长3分钟,30fps 即梦AI 中文理解强、操作简单、口型匹配优秀 知识分享、生活记录 单次12秒 海螺AI 创意元素生成、动画风格出色 创意短视频、动画制作 约6秒 Vidu 生成稳定、速度适中 通用场景 约4秒 实测数据对比 根据CSDN博主测评数据,在生成速度方面: Pika: 1分钟 < 即梦、Runway: 2分钟 < Vidu: 3分钟 < 可灵、清影: 5分钟 在免费版本生成时长方面: 即梦: 12秒 > 清影、Luma: 6秒 > 可灵: 5秒 > Vidu、Runway: 4秒 > Pika: 3秒 ✨ 可灵AI:国产之光 作为快手团队的产品,可灵AI在技术上表现亮眼
可灵和vidu在普通用户群体中的真正火爆,其实不是所谓的专业级影片,而是复活老照片,做跨时空拥抱。 可灵凭借这个场景在国内爆火,席卷所有社交媒体;而vidu在第三世界国家爆火,也是因为这个。 甚至因为可灵和vidu做拥抱比较麻烦,需要用美图或者ps单独处理一下图,还出现了专门用AI拥抱的工作流简化的细分工具,CloneAI。
AGI-Eval 评测社区对 Vidu Q1、Kling 2.0、PixVerse V4、Gen-4、Video-01等十大图生视频模型进行了测评。评测主要考察模型依据输入图片生成动态视频的能力。 Prompt*0.35+矛盾 Prompt*0.15+空 Prompt*0.15在整体梯度上,Seedance 1.0(得分3.414)>海螺02(得分3.363)> Pixverse V4(得分3.238)>Vidu 第二梯队模型:包含 Pixverse V4、Vidu Q1、Video-01 和 Dreamina 3.0。 PixVerse V4 和 Vidu Q1 的综合分差仅 0.007,基本处于同一水平。倒数梯队模型:Gen4 与其他模型差距较大(比均值低0.169)。
集中调用多方大模型:通过统一接口,无缝接入 腾讯混元(Hunyuan) 及第三方头部大模型(包括可灵Kling、即梦Jimeng、海螺Hailuo、Vidu、DeepSeek、Google、OpenAI 聚合 8+ 顶尖模型库:在单一画布内,用户可针对同一提示词(Prompt),一键并行调用并对比 混元、可灵、Vidu等8种以上 主流视频/图像模型的生成效果,极大缩短试错成本。
key=66d1439376e52fcee2853049 Vidu 生数科技 否 4 - - https://www.vidu.studio/zh Kling 快手 否 5或10 - - https:/
它通过单一标准接口接入,结合腾讯混元、Vidu等头部厂商AI大模型能力,为客户提供一体化的智能媒资服务。 核心差异化 该产品旨在实现媒资管理从传统的“被动存储”向AI时代的“主动赋能”转型。 AIGC开放生态: 支持腾讯混元、Vidu等多家头部厂商模型,持续更新接入全球领先模型能力。 丰富处理工具: 提供视频转码、智能字幕、智能配音、精彩集锦、视频拆条、视频编辑等 数十种 工具。
Vidu大模型接入教程:https://api.lingyaai.cn支持ViduclaudegeminiGPT全系模型动漫特效实测:国漫风格能否稳定复现? Q1/Q2/Q3三代能力对比Vidu各版本迭代方向清晰,每一代聚焦一个核心能力突破:版本核心突破方向能力定位ViduQ1重新定义叙事逻辑夯实AI视频基础生成能力,建立故事线推进框架ViduQ2解锁AI演技赋予虚拟角色微表情与肢体表现力 ,打破僵硬感ViduQ3工业化内容生产参考生全能力矩阵,声画同出,商用交付就绪这一演进路线表明,Vidu的技术策略是分阶段建立影视内容生产的完整能力栈——从叙事结构(Q1)到角色表演(Q2),再到整体工业化生产 生态布局:生态层级具体产品适用场景SaaS层ViduAgent、ViduClaw个人创作者、小型内容工作室MaaS层ViduAI开放平台、Vidu.API企业级批量生产、开发者集成适用人群矩阵:用户类型核心需求