构筑无本体采集矩阵:Livsyn端云一体化数据基础设施 为解决高成本、单一视角的物理采集限制,腾讯云推出了 LIVSYN 灵生 平台。 云端高性能存储底座: 采用 腾讯云对象存储 COS + GooseFS 高性能缓存系统 的架构组合,打通从灵生科技本地 IDC 到云端开发训练平台的数据迁移专线。 释放端侧与云端算力:多模态数据采集与存储指标解析 通过软硬件协同,LIVSYN 灵生在数据质量(输入端)与模型生产效率(处理端)上实现了具体的量化指标跃升: 突破存储与多机协同吞吐率: 借助 GooseFS 落地多元真实场景:打通从碎片化采集到工业部署的链路 LIVSYN 提供了一条同一套数据链路服务 VLA 动作学习与 WAM 世界状态预测的闭环。 锚定世界模型演进路线:以统一接口消除跨硬件迁移损耗 在具身模型加速进化的节点,腾讯云 LIVSYN 灵生的核心技术壁垒在于将异构的人类动作与观测数据对齐到了通用的 UMI 接口。
Livsyn提供端到端无本体数据采集与治理方案 腾讯云LIVSYN灵生产品体系的核心是针对WAM数据需求提供的“人本”采集解决方案。 软件平台LDP(Livsyn Data Platform)实现了从端侧采集、数据回放/标注/审核,到生成VLA/WAM训练数据集的端到端闭环。 灵生科技借力腾讯云存储实现数据基础设施升级 在模型训练规模化过程中,灵生科技原有架构存在数据分散形成孤岛、多机共享能力不足、存储带宽制约训练周期等痛点。 来源:2026腾讯云AI产业应用大会LIVSYN灵生演讲材料,内容基于AI Ascent 2026演讲摘要、NVIDIA WAM术语表及DreamZero与Fast-WAM论文。
"World Action Models are Zero-shot Policies" (arXiv, 2026)、Fast-WAM (arXiv, 2026)、UMI paper UMI数据方案与LIVSYN 灵生产品矩阵落地 针对上述需求,腾讯云LIVSYN灵生推出UMI(Universal Manipulation Interface)数据体系,核心优势为多样性上限更高、跨本体差异更低:手持/穿戴式采集方式可覆盖家庭厨房 数据来源:UMI paper、LIVSYN灵生产品参数表 存储与训练效率量化提升 VLA大模型训练规模化后,传统本地磁盘+NFS存储模式存在三大痛点:数据分散形成训练孤岛、多机共享能力不足存在一致性风险 数据来源:腾讯云COS+GooseFS方案参数、灵生科技存储架构实践 端云一体化数据闭环落地路径 同一套无本体UMI数据资产可同时服务VLA动作学习与WAM世界状态预测: 端侧通过Grip/Ego/DEX 数据来源:LIVSYN灵生端云一体化架构图 技术适配性与方案获奖背书 本方案的技术领先性体现在三点: 范式适配:完全匹配WAM模型对“带动作标注的视频序列+世界状态变化覆盖”的核心数据要求,UMI数据的跨本体低差异特性被
SkyReels加上混元Video则可以实现图生视频的高精度视频和加速模型,并且实际测试的话,很低的分辨率就可以实现图生视频加上目前本地测试的时长也是完全可以接受的,而且测试的图生视频超级的清晰,不会出现扭曲 1.首先拖入工作流 2.下载对应的模型 a.官方的图生视频模型,相当于大模型,需要放在大模型unet的文件夹 b.对应的VAE,这里搭配的也是跟官方精度一致的混元F16 Vae,放在vae 但是为了速度,我们缩小到50帧左右就可以,所以我给到了57帧,但是视频的帧率我给到了30帧,希望更清晰一点 实际测试开了多个AI应用的前提下,846S完事,目前测试多图多次测试,确实从表现来说完全可以追的上可灵,
编辑:编辑部 【新智元导读】没想到,刚刚上线了图生视频和视频续写功能的可灵AI,竟已在全世界互联网上引爆了视频创作的热潮! 歪果仁都「馋哭了」 是的,这几天快手可灵最新上线的图生视频和视频续写功能,不仅在国内掀起一波试用的热潮,还「馋哭」了一众外国网友。 如今,X上已经铺满了可灵生成和续写的视频。 所以说,这次可灵的两大全新功能,究竟强大在哪里? 图生视频 首先来看第一个功能——图生视频。 这一功能直接做到了化静为动,让我们从此可以按需定制视觉叙事。 B站up主「呜哩智绘」,用可灵的图生视频功能,生成了各个样子的戴珍珠耳环的少女。 人物动作、面部表情、手部细节、视频中的光影,都堪称完美。 「呜哩智绘」直言:这是「目前我玩过的最稳定好用的图生视频」。 网友也表示—— 「喜好儿网」则用可灵让历史人物活了起来。 网友们惊呼,可灵做出的爱因斯坦简直跟纪录片一样。
正文 安卓用户福音:可灵 AI 初代版本就是快影! 很多朋友可能不知道,其实 “可灵 AI”最早的版本就是在安卓端推出的“快影” 。 快手 AI 应用再创新:“可灵 AI”带来了什么? 快手“可灵 AI”进一步延展了其内容创作布局,基于快手自主研发的“可灵大模型”与“可图大模型”,使得用户能够轻松体验强大而直观的AI创意工具。 ✨ 图生影,文生图:掌上生成动态创意内容 1. AI 视频生成功能 “可灵 AI”主打的AI视频生成功能具有两种模式:“文生视频”和“图生视频”。 图生视频:将静态图像转化为动态视频。你可以上传一张图片,例如一朵静态的花,然后让“可灵 AI”将其生成一个盛开的动态视频,令画面栩栩如生。 随着技术的不断进步,“可灵 AI”将为用户提供更多创意和自由度! 总结 ✨ **“可灵 AI”**的推出,为用户提供了一个独特的创意生产力平台,让创意内容的生成更加触手可及。
昨天,6月6号,是快手的13周年生日。 在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。 可灵。 给我也干了个措手不及。 快手的可灵,就是我认为正儿八经的,经过验证的,而且还能上手直接用的,第一个中国版Sora。 不过可灵是大模型,真正变成产品,还是有很多限制的,比如算力、功能、开发周期等等。 如果大家留意一下过往的所有AI视频,你用图生视频的方式去做,是几乎不可能做出这种交互镜头的,都是用蒙太奇或者AE去替代掉。而现在,有希望了。 这一点,快手可灵,除了那个没发布的Sora之外,基本碾压所有同行。 我现在非常期待可灵的图生视频功能。 现在,我真的非常非常想用快手可灵,把他做出来。 毕竟,这是真正的第一个,中国版Sora。 哪个创作者会不兴奋,会没有创作欲望呢? 就看什么时候,快手可灵能更新它的图生视频功能了。 我期待着那一天。
二、国内主流视频生成API横评截至2026年6月,国内可用的视频生成API主要有以下几家:2.1可灵Kling(快手)维度说明所属厂商快手最新版本Kling2.0支持功能文生视频、图生视频、视频延长视频时长 2.2豆包Seedance(字节跳动)维度说明所属厂商字节跳动(火山引擎)最新版本Seedance2.0支持功能文生视频、图生视频视频时长5-10秒分辨率1080P画质评价★★★★☆仅次于可灵,人像和动作场景表现好生成速度 画质相比可灵和豆包还有差距,但对于简单演示、模板化短内容够用了。 2.5Vidu(生数科技)维度说明所属厂商生数科技最新版本Vidu2.0支持功能文生视频、图生视频、参考图保持角色一致性视频时长4-8秒分辨率1080P画质评价★★★★☆角色一致性有独特优势生成速度★★ 需要图生视频还是纯文生视频?视频时长要求多少秒?
生图的Prompt是这样的: 电影质感,特写镜头,一位年轻女小丑的脸部,带有红色大鼻子、红色腮红妆容,眉毛浓密,戴着圆形金丝眼镜,头发是红蓝相间的蓬松卷发假发,表情严肃、带有内敛的悲伤感,皮肤细腻,细节写实 我生视频的prompt是这样的:小丑妆女孩定格凝视镜头,眼神冷静中透出疲惫,镜头缓慢后拉,微微抖动聚焦眼神,他轻轻摘下眼镜,嘴角抽动仿佛想笑,最终眼神低垂不语,气氛压抑克制,镜头暗转隐入阴影。 还有这个,可图2.0生成的很漂亮的亚洲女孩。 我想让她摘下眼镜,然后走起来。 看看可灵1.6。 抬了一个假动作。 我们再看看2.0。 不仅把眼镜摘下来了,而且眼镜里的反光,都模拟了出来。 可灵1.6是这样的。 说实话,动作啥的已经很好了,但是从我们人类的直觉看过去,可能细看之下,还是会有点假。如果你感受不到假的话,那对比2.0生成的内容看看。 老人们敬礼后,相视一笑,一生的记忆,都在这一刻了。 一个看着专业但是却是菜鸡的跳水。 监控风,怪兽的第一次现身。 她性感地吞下“快乐”,这是一个时代,用消费麻醉灵魂。
精彩内容 经过多年市场验证,云端人脸识别无法满足企业对身份信息存储的高安全性要求,单一生物特征识别技术如虹膜识别、静脉识别等无法保证身份认证的准确,人脸识别技术该以何种姿态服务产业? ,安全系数比单一生物特征识别技术高出数个数量级,满足金融、电信、能源、交通、教育、司法、公安、边检、社保等众多领域对身份认证体系的高安全等级要求。 灵云人脸识别技术已成功服务中国人民银行等众多大型金融机构。 灵云智能人脸识别能力平台实现人脸+声纹+指纹+证照识别技术的融合应用 随着深度学习技术的应用,人脸识别等生物特征识别技术取得了突飞猛进的发展,但是,单一生物特征识别技术准确率无法到达,就像我们在辨认一个人的时候 灵云智能人脸识别能力平台是捷通华声于2015年推出的灵云全智能能力平台系列产品之一,灵云全智能能力平台为系统集成商、解决方案提供商、软件开发商等合作伙伴提供灵云语音合成、语音识别、手写识别、OCR、声纹识别
它以其强大的“文生视频”和“图生视频”功能,让视频创作变得简单而高效,甚至可以说,让每个人都有机会成为“仙侠”世界的造梦者。 打开可灵AI,进入“AI视频”: 首先,你需要打开可灵AI官方网站 [此处插入可灵AI官网链接],然后找到“AI视频”功能。 方法二:图生视频——先绘蓝图,再筑影像 “图生视频”则更像是先画好蓝图,再进行影像构建。它赋予了你更大的控制权,让你更好地把握视频的风格和细节。 文生图,构建蓝图: 在可灵AI中,选择“文生图”功能,选择可灵1.5模型,输入你的创意描述。 提示词示例: 一位美丽的中国古风女子,在翻滚的乌云和闪电中翩翩起舞。 图生视频,动态呈现: 找到画质增强后的图片,点击生成视频,进入图生视频界面,选择可灵1.6模型。创意描述可以直接复用文生图的提示词。
12月一到,AI 圈的“王炸级”产品又双叒叕来了—快手旗下可灵(Kling AI)正式发布了被称为 “全球首个统一多模态视频大模型”—Kling O1(可灵 O1)。 O1 的目标是: 把这些能力统一到一个模型,用户可以在同一个输入通道里完成图生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务。 以前我们做视频,AI 模型是“偏科”的:有的擅长文生视频,有的擅长图生视频,有的擅长修补画面。 但可灵 O1 的出现,打破了这一切。一个模型,搞定所有。 O1 的五大核心亮点 一、全能引擎 特点:全球首个统一多模态视频大模型 可灵•视频O1模型,首次在视频生成领域,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务 还可以在可灵 O1 多模态指令输入区,进行以下创作: 1)图片/主体参考 为提供更好的角色/道具/场景一致性,可灵 O1 首次支持你通过上传多视角图片,进行「主体」的创建。
Gen1是个video to video模型,只能做视频风格的转绘,没法文生或图生视频,而Gen2,第一次支持文生和图生了。 那时候,我我花了5个晚上,用MidJourney生成了693张图,用Gen2生成了185个镜头,最后选出来了60个镜头,剪辑成了我最喜欢的,《流浪地球3》的AI预告片。 所以,没有参考功能,Gen4的生成界面,就变成了光秃秃一坨,只有图生视频功能了。。。 对,文生视频也没有,估计要跟着多主体参考一起出,现在能用的,就只有图生视频。 再说说图生视频模型。 就,相比于Gen3,有进步。 但是跟目前公认的图生视频最好的模型可灵1.6比,明显还差了一截,更别提跟Google那个牛逼炸的Veo2的文生视频出来的质量比了。 上面是RunwayGen4,下面是可灵1.6。 Runway走的更快些,但是完全是直接穿过花的,光影也有点问题,可灵1.6你是能明显看到人和花的物体碰撞的。而且Runway的花全糊了,细节也都丢了。
漫画中,Steve Rogers 1920年出生。本来他只是一名身体瘦弱的艺术生,后来参加美军开展的超级士兵计划。被注入药物后,他成为二战时期唯一的一名超级战士,并就此成为美国队长。 相较于史塔克的放荡不羁,又或者是索尔的好大喜功,美国队长就像是个模范生,他勇敢、善良、忠诚、无私,具有所有你可以想象出的美好品格。不过最后他没有被纳粹的枪炮杀死,却死在他所爱的人的一记冷枪之下。 同时各个国家的恶灵骑士能力与形象也有差别,如印度的恶灵骑士会化身为复仇女神的形象、日本的恶灵骑士能操纵不动明王的力量、英国的恶灵骑士则是以弹簧腿杰克的形象出现。 ? 也许正是这样扭曲的环境,造就了恶灵骑士这样扭曲的英雄。可能只有以暴制暴,才能为社会带来一点改变。 ? 此外,恶灵骑士们获取超能力的代价,是一辈子受到复仇之灵的诅咒。 财产、事业、家庭等一切正常人所具备的人生都会被冲毁,一生除了为无辜者复仇外不能享受美好的人生。就像70年代的那群嬉皮士,最终只能走向毁灭。 距离《复联3》国内上映还有两天。
漫画中,Steve Rogers 1920年出生。本来他只是一名身体瘦弱的艺术生,后来参加美军开展的超级士兵计划。被注入药物后,他成为二战时期唯一的一名超级战士,并就此成为美国队长。 相较于史塔克的放荡不羁,又或者是索尔的好大喜功,美国队长就像是个模范生,他勇敢、善良、忠诚、无私,具有所有你可以想象出的美好品格。不过最后他没有被纳粹的枪炮杀死,却死在他所爱的人的一记冷枪之下。 同时各个国家的恶灵骑士能力与形象也有差别,如印度的恶灵骑士会化身为复仇女神的形象、日本的恶灵骑士能操纵不动明王的力量、英国的恶灵骑士则是以弹簧腿杰克的形象出现。 也许正是这样扭曲的环境,造就了恶灵骑士这样扭曲的英雄。可能只有以暴制暴,才能为社会带来一点改变。 此外,恶灵骑士们获取超能力的代价,是一辈子受到复仇之灵的诅咒。 财产、事业、家庭等一切正常人所具备的人生都会被冲毁,一生除了为无辜者复仇外不能享受美好的人生。就像70年代的那群嬉皮士,最终只能走向毁灭。 距离《复联3》国内上映还有两天。
而这次的两个新模型,一个可灵2.1,一个可灵2.1大师版。 基本就是对标之前的可灵1.6和可灵2.0大师版的,不过这次,也能感觉到,他们想做更详细的分层。 而这次可灵2.1的高品质版,在部分效果上,能够媲美可灵2.0大师版,同时价格相比大师版要降低65%,在日常使用中,你终于可以不需要用过去的可灵1.6了,而是直接上可灵2.1就行。 不过可灵2.1只支持图生视频,不支持文生视频;而大师版则没这个限制,文生图生都可以。 我整体跑了一下,可灵1.6、可灵2.0大师版、可灵2.1高品质、可灵2.1大师版的对比。 然后是可灵2.1,也在1分钟以内。 可灵2.0大师版和可灵2.1大师版,3分多。 还有这张图片,一个在空中飞跃即将落地、伴随着尘土飞扬的车。 而大师版,2.1大师版继续延生2,0大师版的定位,依然在运动表现和模型质量方面,有更高的上限,更适用于专业影视级制作和商业交付。
明亮面部,柔和光线,白色吊带露出腰部,白色喇叭阔腿长裤,赤脚,,双手自然深插裤袋,下巴微抬,目光平视镜头,表情冷静自信,浅灰色背景,全身构图,街拍风格 让这位 AI 模特换上指定款式的服装,再使用一下可灵图生视频功能 将这张图片一键输入「图生视频」,静态人物鲜活了起来: Prompt:美女微微一笑,拨动了头发,动人心弦。 另一方面,可图 1.5 生成的画面质量显著提升。 同时,基于可灵 1.6 的图生视频能力,即可生成自然、真实的动态服装展示视频,让商品展示更具感染力与真实感。 商业广告场景之外,这种让任意静态图动起来的一站式方案,还可以加速影视作品制作: 目前在可灵 1.5 模型高品质模式中,还支持仅使用尾帧完成图生视频,比如向前生成 5s/10s 的视频,非常适合生成商品展示 疯狂的 2024 可灵 AI 的进化之路 在 2024 年的末尾回顾可灵 AI 这一年的发展历程,一定会让关注国产大模型的用户们百感交集。
03 客户实证 灵生科技如何跑通“数据飞轮” 理论的落地需要实践的检验。本次大会特邀具身智能领域标杆客户灵生科技现身说法。 灵生科技是一家聚焦人本体数据采集及世界模型训练的高潜力人形机器人公司,致力于打造能够泛化应用于多元真实场景的通用具身智能系统。其业务天然依赖视频、动作轨迹和多模态传感数据。 灵生科技创始人兼 CEO 杨洪兵表示:具身模型训练规模化后,存储成为关键瓶颈——数据分散在 IDC 各 GPU 服务器,制约多机协同;多机训练时跨节点传输效率低、一致性风险高,本地磁盘无冗余,硬件故障易致数据丢失 落地价值: 通过这一架构,灵生科技实现了数据零丢失、训练效率大幅提升,真正打通了“数据采集→模型训练→推理应用”的数据飞轮。
腾讯云存储产品总经理陈峥和灵生科技合伙人蒋玉骅 两个不同视角指向同一个结论:Agent 时代需要全新的存储范式,腾讯云正以 Agent Bucket 破解命题。 灵生科技的数据闭环 理解 Agent Bucket 的产品力,最快的方式是看一个真实的客户实践。 灵生科技专注于成为行业领先的具身数据引擎提供商,核心产品包括“人本采集”高效数采方案及配套 LDP 数据平台、L 系列人形机器人等,已在智能制造、无人零售等领域开启商用。 灵生科技创始人兼 CEO 杨洪兵在专场演讲中直言:"具身模型训练规模化后,存储成为关键瓶颈。" 灵生科技采用的策略是:预训练阶段用低成本大体量的云端冷存储,DataLoader 临近训练时流式下载到本地;后训练阶段则用少量高精度标注数据,量级小但精准。
在传统的可灵的UI界面里,如果我们想把可灵生成的图,用图生视频的方式生成AI视频的话。 需要点击这个生成视频。 然后带着这张图,跳到了视频生成的界面。 在对着一堆的按钮和参数,调完以后,生成视频。 还记得2024年,我们生图用Midjourney、生视频用可灵、TTS用hailuo,生成完音频以后再扔回可灵做口型驱动,实在是太操蛋了。 标签上永远开着十几个网页。 而可灵本身有生态级优势,图片、视频做的很棒,做这种进一步的创作工具,本身就是水到渠成的。 灵动画布上,还有一些小细节。 除了多图生视频之外,多图生图也有很多花活。 在图片生成一栏,点参考生图——多图参考,就能看到主体、场景和风格三个生图维度了。 这个界面,有点眼熟之前Google的whisk,都是依据主体 - 场景 - 风格来出图,不过可灵的自由度还要更高。 whisk每个维度只能放一张图,但可灵的主体这栏足足可以放四张图。