首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 面向WAM时代的无本体人类操作数据采集与训练闭环

    Livsyn提供端到端无本体数据采集与治理方案 腾讯云LIVSYN生产品体系的核心是针对WAM数据需求提供的“人本”采集解决方案。 软件平台LDP(Livsyn Data Platform)实现了从端侧采集、数据回放/标注/审核,到生成VLA/WAM训练数据集的端到端闭环。 科技借力腾讯云存储实现数据基础设施升级 在模型训练规模化过程中,科技原有架构存在数据分散形成孤岛、多机共享能力不足、存储带宽制约训练周期等痛点。 来源:2026腾讯云AI产业应用大会LIVSYN演讲材料,内容基于AI Ascent 2026演讲摘要、NVIDIA WAM术语表及DreamZero与Fast-WAM论文。

    20810编辑于 2026-06-11
  • 腾讯云LIVSYN:破解具身智能WAM模型数据采集瓶颈与端云一体化基座

    构筑无本体采集矩阵:Livsyn端云一体化数据基础设施 为解决高成本、单一视角的物理采集限制,腾讯云推出了 LIVSYN 平台。 云端高性能存储底座: 采用 腾讯云对象存储 COS + GooseFS 高性能缓存系统 的架构组合,打通从科技本地 IDC 到云端开发训练平台的数据迁移专线。 释放端侧与云端算力:多模态数据采集与存储指标解析 通过软硬件协同,LIVSYN 生在数据质量(输入端)与模型生产效率(处理端)上实现了具体的量化指标跃升: 突破存储与多机协同吞吐率: 借助 GooseFS 落地多元真实场景:打通从碎片化采集到工业部署的链路 LIVSYN 提供了一条同一套数据链路服务 VLA 动作学习与 WAM 世界状态预测的闭环。 锚定世界模型演进路线:以统一接口消除跨硬件迁移损耗 在具身模型加速进化的节点,腾讯云 LIVSYN 的核心技术壁垒在于将异构的人类动作与观测数据对齐到了通用的 UMI 接口。

    16110编辑于 2026-06-11
  • 具身智能WAM模型训练的数据闭环:UMI采集与腾讯云存储支撑方案

    "World Action Models are Zero-shot Policies" (arXiv, 2026)、Fast-WAM (arXiv, 2026)、UMI paper UMI数据方案与LIVSYN 生产品矩阵落地 针对上述需求,腾讯云LIVSYN推出UMI(Universal Manipulation Interface)数据体系,核心优势为多样性上限更高、跨本体差异更低:手持/穿戴式采集方式可覆盖家庭厨房 数据来源:UMI paper、LIVSYN生产品参数表 存储与训练效率量化提升 VLA大模型训练规模化后,传统本地磁盘+NFS存储模式存在三大痛点:数据分散形成训练孤岛、多机共享能力不足存在一致性风险 数据来源:腾讯云COS+GooseFS方案参数、科技存储架构实践 端云一体化数据闭环落地路径 同一套无本体UMI数据资产可同时服务VLA动作学习与WAM世界状态预测: 端侧通过Grip/Ego/DEX 数据来源:LIVSYN生端云一体化架构图 技术适配性与方案获奖背书 本方案的技术领先性体现在三点: 范式适配:完全匹配WAM模型对“带动作标注的视频序列+世界状态变化覆盖”的核心数据要求,UMI数据的跨本体低差异特性被

    23410编辑于 2026-06-11
  • 来自专栏Java项目实战

    平替 SkyReels: 混元升级版 图视频

    SkyReels加上混元Video则可以实现图视频的高精度视频和加速模型,并且实际测试的话,很低的分辨率就可以实现图视频加上目前本地测试的时长也是完全可以接受的,而且测试的图视频超级的清晰,不会出现扭曲 1.首先拖入工作流 2.下载对应的模型 a.官方的图视频模型,相当于大模型,需要放在大模型unet的文件夹 b.对应的VAE,这里搭配的也是跟官方精度一致的混元F16 Vae,放在vae 但是为了速度,我们缩小到50帧左右就可以,所以我给到了57帧,但是视频的帧率我给到了30帧,希望更清晰一点 实际测试开了多个AI应用的前提下,846S完事,目前测试多图多次测试,确实从表现来说完全可以追的上可

    1.4K10编辑于 2025-02-25
  • 来自专栏新智元

    快手「可」再进化!视频续写可达3分钟让全球网友炸锅

    编辑:编辑部 【新智元导读】没想到,刚刚上线了图视频和视频续写功能的可AI,竟已在全世界互联网上引爆了视频创作的热潮! 歪果仁都「馋哭了」 是的,这几天快手可最新上线的图视频和视频续写功能,不仅在国内掀起一波试用的热潮,还「馋哭」了一众外国网友。 如今,X上已经铺满了可生成和续写的视频。 所以说,这次可的两大全新功能,究竟强大在哪里? 图视频 首先来看第一个功能——图视频。 这一功能直接做到了化静为动,让我们从此可以按需定制视觉叙事。 B站up主「呜哩智绘」,用可的图视频功能,生成了各个样子的戴珍珠耳环的少女。 人物动作、面部表情、手部细节、视频中的光影,都堪称完美。 「呜哩智绘」直言:这是「目前我玩过的最稳定好用的图视频」。 网友也表示—— 「喜好儿网」则用可让历史人物活了起来。 网友们惊呼,可做出的爱因斯坦简直跟纪录片一样。

    1.1K10编辑于 2024-06-27
  • 来自专栏猫头虎博客专区

    快手「可 AI」重磅上线苹果 App Store:掌上创意生产力新平台,激发你的无限想象力!

    正文 安卓用户福音:可 AI 初代版本就是快影! 很多朋友可能不知道,其实 “可 AI”最早的版本就是在安卓端推出的“快影” 。 快手 AI 应用再创新:“可 AI”带来了什么? 快手“可 AI”进一步延展了其内容创作布局,基于快手自主研发的“可大模型”与“可图大模型”,使得用户能够轻松体验强大而直观的AI创意工具。 ✨ 图影,文生图:掌上生成动态创意内容 1. AI 视频生成功能 “可 AI”主打的AI视频生成功能具有两种模式:“文生视频”和“图视频”。 图视频:将静态图像转化为动态视频。你可以上传一张图片,例如一朵静态的花,然后让“可 AI”将其生成一个盛开的动态视频,令画面栩栩如。 随着技术的不断进步,“可 AI”将为用户提供更多创意和自由度! 总结 ✨ **“可 AI”**的推出,为用户提供了一个独特的创意生产力平台,让创意内容的生成更加触手可及。

    89210编辑于 2024-11-09
  • 实测完快手的AI视频「可」后,我觉得这才是第一个中国版Sora

    昨天,6月6号,是快手的13周年日。 在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。 可。 给我也干了个措手不及。 快手的可,就是我认为正儿八经的,经过验证的,而且还能上手直接用的,第一个中国版Sora。 不过可是大模型,真正变成产品,还是有很多限制的,比如算力、功能、开发周期等等。 如果大家留意一下过往的所有AI视频,你用图视频的方式去做,是几乎不可能做出这种交互镜头的,都是用蒙太奇或者AE去替代掉。而现在,有希望了。 这一点,快手可,除了那个没发布的Sora之外,基本碾压所有同行。 我现在非常期待可的图视频功能。 现在,我真的非常非常想用快手可,把他做出来。 毕竟,这是真正的第一个,中国版Sora。 哪个创作者会不兴奋,会没有创作欲望呢? 就看什么时候,快手可能更新它的图视频功能了。 我期待着那一天。

    69910编辑于 2025-04-14
  • 国内可用的 AI 视频生成 API 有哪些?

    二、国内主流视频生成API横评截至2026年6月,国内可用的视频生成API主要有以下几家:2.1可Kling(快手)维度说明所属厂商快手最新版本Kling2.0支持功能文生视频、图视频、视频延长视频时长 2.2豆包Seedance(字节跳动)维度说明所属厂商字节跳动(火山引擎)最新版本Seedance2.0支持功能文生视频、图视频视频时长5-10秒分辨率1080P画质评价★★★★☆仅次于可,人像和动作场景表现好生成速度 画质相比可和豆包还有差距,但对于简单演示、模板化短内容够用了。 2.5Vidu(数科技)维度说明所属厂商数科技最新版本Vidu2.0支持功能文生视频、图视频、参考图保持角色一致性视频时长4-8秒分辨率1080P画质评价★★★★☆角色一致性有独特优势生成速度★★ 需要图视频还是纯文生视频?视频时长要求多少秒?

    29510编辑于 2026-06-16
  • 2.0正式发布 - 现实,真的不存在了。

    图的Prompt是这样的: 电影质感,特写镜头,一位年轻女小丑的脸部,带有红色大鼻子、红色腮红妆容,眉毛浓密,戴着圆形金丝眼镜,头发是红蓝相间的蓬松卷发假发,表情严肃、带有内敛的悲伤感,皮肤细腻,细节写实 我视频的prompt是这样的:小丑妆女孩定格凝视镜头,眼神冷静中透出疲惫,镜头缓慢后拉,微微抖动聚焦眼神,他轻轻摘下眼镜,嘴角抽动仿佛想笑,最终眼神低垂不语,气氛压抑克制,镜头暗转隐入阴影。 还有这个,可图2.0成的很漂亮的亚洲女孩。 我想让她摘下眼镜,然后走起来。 看看可1.6。 抬了一个假动作。 我们再看看2.0。 不仅把眼镜摘下来了,而且眼镜里的反光,都模拟了出来。 可1.6是这样的。 说实话,动作啥的已经很好了,但是从我们人类的直觉看过去,可能细看之下,还是会有点假。如果你感受不到假的话,那对比2.0成的内容看看。 老人们敬礼后,相视一笑,一的记忆,都在这一刻了。 一个看着专业但是却是菜鸡的跳水。 监控风,怪兽的第一次现身。 她性感地吞下“快乐”,这是一个时代,用消费麻醉灵魂。

    70810编辑于 2025-04-16
  • 来自专栏BestSDK

    为什么人脸识别SDK,将是开发APP必备

    精彩内容 经过多年市场验证,云端人脸识别无法满足企业对身份信息存储的高安全性要求,单一物特征识别技术如虹膜识别、静脉识别等无法保证身份认证的准确,人脸识别技术该以何种姿态服务产业? ,安全系数比单一物特征识别技术高出数个数量级,满足金融、电信、能源、交通、教育、司法、公安、边检、社保等众多领域对身份认证体系的高安全等级要求。 云人脸识别技术已成功服务中国人民银行等众多大型金融机构。 云智能人脸识别能力平台实现人脸+声纹+指纹+证照识别技术的融合应用 随着深度学习技术的应用,人脸识别等生物特征识别技术取得了突飞猛进的发展,但是,单一物特征识别技术准确率无法到达,就像我们在辨认一个人的时候 云智能人脸识别能力平台是捷通华声于2015年推出的云全智能能力平台系列产品之一,云全智能能力平台为系统集成商、解决方案提供商、软件开发商等合作伙伴提供云语音合成、语音识别、手写识别、OCR、声纹识别

    3.7K50发布于 2018-02-27
  • 来自专栏一个正经的测试

    10分钟学会云中飞仙爆火视频(附提示词)

    它以其强大的“文生视频”和“图视频”功能,让视频创作变得简单而高效,甚至可以说,让每个人都有机会成为“仙侠”世界的造梦者。 打开可AI,进入“AI视频”: 首先,你需要打开可AI官方网站 [此处插入可AI官网链接],然后找到“AI视频”功能。 方法二:图视频——先绘蓝图,再筑影像 “图视频”则更像是先画好蓝图,再进行影像构建。它赋予了你更大的控制权,让你更好地把握视频的风格和细节。 文生图,构建蓝图: 在可AI中,选择“文生图”功能,选择可1.5模型,输入你的创意描述。 提示词示例: 一位美丽的中国古风女子,在翻滚的乌云和闪电中翩翩起舞。 图视频,动态呈现: 找到画质增强后的图片,点击生成视频,进入图视频界面,选择可1.6模型。创意描述可以直接复用文生图的提示词。

    1.4K00编辑于 2025-01-07
  • 实测完Runway深夜上线的最新模型Gen4,我觉得可还是No.1。

    Gen1是个video to video模型,只能做视频风格的转绘,没法文生或图视频,而Gen2,第一次支持文生和图生了。 那时候,我我花了5个晚上,用MidJourney生成了693张图,用Gen2成了185个镜头,最后选出来了60个镜头,剪辑成了我最喜欢的,《流浪地球3》的AI预告片。 所以,没有参考功能,Gen4的生成界面,就变成了光秃秃一坨,只有图视频功能了。。。 对,文生视频也没有,估计要跟着多主体参考一起出,现在能用的,就只有图视频。 再说说图视频模型。 就,相比于Gen3,有进步。 但是跟目前公认的图视频最好的模型可1.6比,明显还差了一截,更别提跟Google那个牛逼炸的Veo2的文生视频出来的质量比了。 上面是RunwayGen4,下面是可1.6。 Runway走的更快些,但是完全是直接穿过花的,光影也有点问题,可1.6你是能明显看到人和花的物体碰撞的。而且Runway的花全糊了,细节也都丢了。

    78900编辑于 2025-04-14
  • 来自专栏VRPinea

    论漫威英雄丨打打杀杀还没看腻?背后的隐喻你都了解吗?

    漫画中,Steve Rogers 1920年出。本来他只是一名身体瘦弱的艺术,后来参加美军开展的超级士兵计划。被注入药物后,他成为二战时期唯一的一名超级战士,并就此成为美国队长。 相较于史塔克的放荡不羁,又或者是索尔的好大喜功,美国队长就像是个模范,他勇敢、善良、忠诚、无私,具有所有你可以想象出的美好品格。不过最后他没有被纳粹的枪炮杀死,却死在他所爱的人的一记冷枪之下。 同时各个国家的恶骑士能力与形象也有差别,如印度的恶骑士会化身为复仇女神的形象、日本的恶骑士能操纵不动明王的力量、英国的恶骑士则是以弹簧腿杰克的形象出现。 ? 也许正是这样扭曲的环境,造就了恶骑士这样扭曲的英雄。可能只有以暴制暴,才能为社会带来一点改变。 ? 此外,恶骑士们获取超能力的代价,是一辈子受到复仇之的诅咒。 财产、事业、家庭等一切正常人所具备的人生都会被冲毁,一除了为无辜者复仇外不能享受美好的人生。就像70年代的那群嬉皮士,最终只能走向毁灭。 距离《复联3》国内上映还有两天。

    74530发布于 2018-06-11
  • 来自专栏VRPinea

    论漫威丨缺乏历史底蕴的美国人,给我们带来了见证历史的超级英雄

    漫画中,Steve Rogers 1920年出。本来他只是一名身体瘦弱的艺术,后来参加美军开展的超级士兵计划。被注入药物后,他成为二战时期唯一的一名超级战士,并就此成为美国队长。 相较于史塔克的放荡不羁,又或者是索尔的好大喜功,美国队长就像是个模范,他勇敢、善良、忠诚、无私,具有所有你可以想象出的美好品格。不过最后他没有被纳粹的枪炮杀死,却死在他所爱的人的一记冷枪之下。 同时各个国家的恶骑士能力与形象也有差别,如印度的恶骑士会化身为复仇女神的形象、日本的恶骑士能操纵不动明王的力量、英国的恶骑士则是以弹簧腿杰克的形象出现。 也许正是这样扭曲的环境,造就了恶骑士这样扭曲的英雄。可能只有以暴制暴,才能为社会带来一点改变。 此外,恶骑士们获取超能力的代价,是一辈子受到复仇之的诅咒。 财产、事业、家庭等一切正常人所具备的人生都会被冲毁,一除了为无辜者复仇外不能享受美好的人生。就像70年代的那群嬉皮士,最终只能走向毁灭。 距离《复联3》国内上映还有两天。

    93870发布于 2018-05-10
  • 2.1刚刚上线,价格降了65%,更快、更听话、也更强。

    而这次的两个新模型,一个可2.1,一个可2.1大师版。 基本就是对标之前的可1.6和可2.0大师版的,不过这次,也能感觉到,他们想做更详细的分层。 而这次可2.1的高品质版,在部分效果上,能够媲美可2.0大师版,同时价格相比大师版要降低65%,在日常使用中,你终于可以不需要用过去的可1.6了,而是直接上可2.1就行。 不过可2.1只支持图视频,不支持文生视频;而大师版则没这个限制,文生图都可以。 我整体跑了一下,可1.6、可2.0大师版、可2.1高品质、可2.1大师版的对比。 然后是可2.1,也在1分钟以内。 可2.0大师版和可2.1大师版,3分多。 还有这张图片,一个在空中飞跃即将落地、伴随着尘土飞扬的车。 而大师版,2.1大师版继续延2,0大师版的定位,依然在运动表现和模型质量方面,有更高的上限,更适用于专业影视级制作和商业交付。

    74000编辑于 2025-06-08
  • 来自专栏翩翩白衣少年

    O1 正式发布,全球首个统一多模态视频大模型,强得可怕!

    12月一到,AI 圈的“王炸级”产品又双叒叕来了—快手旗下可(Kling AI)正式发布了被称为 “全球首个统一多模态视频大模型”—Kling O1(可 O1)。 O1 的目标是: 把这些能力统一到一个模型,用户可以在同一个输入通道里完成图视频、文生视频、首尾帧视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务。 以前我们做视频,AI 模型是“偏科”的:有的擅长文生视频,有的擅长图视频,有的擅长修补画面。 但可 O1 的出现,打破了这一切。一个模型,搞定所有。 O1 的五大核心亮点 一、全能引擎 特点:全球首个统一多模态视频大模型 可•视频O1模型,首次在视频生成领域,将参考生视频、文生视频、首尾帧视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务 还可以在可 O1 多模态指令输入区,进行以下创作: 1)图片/主体参考 为提供更好的角色/道具/场景一致性,可 O1 首次支持你通过上传多视角图片,进行「主体」的创建。

    1.3K10编辑于 2026-03-16
  • 在AI工具间来回切换了1年后,可用一张画布终结了它。

    在传统的可的UI界面里,如果我们想把可生成的图,用图视频的方式生成AI视频的话。 需要点击这个生成视频。 然后带着这张图,跳到了视频生成的界面。 在对着一堆的按钮和参数,调完以后,生成视频。 还记得2024年,我们图用Midjourney、视频用可、TTS用hailuo,生成完音频以后再扔回可做口型驱动,实在是太操蛋了。 标签上永远开着十几个网页。 而可本身有生态级优势,图片、视频做的很棒,做这种进一步的创作工具,本身就是水到渠成的。 灵动画布上,还有一些小细节。 除了多图视频之外,多图图也有很多花活。 在图片生成一栏,点参考生图——多图参考,就能看到主体、场景和风格三个图维度了。 这个界面,有点眼熟之前Google的whisk,都是依据主体 - 场景 - 风格来出图,不过可的自由度还要更高。 whisk每个维度只能放一张图,但可的主体这栏足足可以放四张图。

    86110编辑于 2025-07-29
  • 来自专栏Java项目实战

    小小可AI2.1 拿下

      众所周知,可AI2.1不是贵不贵的问题,是没有体验的机会,不开会员,体验都不行,一个产品,不能只看发布会效果,起码给人一个体验的次数,然后从多次抽卡,决定是否长期使用并付费,OK,那么现在机会来了 可2.1大师的定价 10秒的话,200,就是20块一个视频,会员的话46块,600灵感,3个视频 各平台制作一个视频的成本比较 https://mpvideo.qpic.cn/0b2es4bfsaacfaafalb5jjufff6dlglqewia.f10002 tab=register&inviteCode=3bX9 重点来了,可的2.10,可的2.1,可的2.1大师版,文生视频,图视频,都可以使用 超级多的AI工具箱,选择AI视频,点击可,就可以看到可 2.1.2.0等多个模型可以使用 其中可的V2master  对应可官网的可2.0大师版 其中可的V2 -1  对应可官网的可2.1版 其中可的V2 -1-master  对应可官网的可

    35500编辑于 2025-06-21
  • 用 WorkBuddy + 即梦可 做 AI 短视频:我从0到1的全流程实录

    早期的全流程基本是纯手动:想脚本用 AI 对话框复制粘贴、图去即梦网页一张张点、生成结果不满意再改提示词重新来……一天折腾下来,出不了几条片子,人还特别累。 本文记录我用 WorkBuddy + 即梦/可 搭建 AI 短视频流水线的完整实战过程,供大家参考。二、我的工具组合:各自负责什么? 先说清楚每个工具的定位,避免重复造轮子:工具角色具体负责WorkBuddy大脑 + 指挥官生成脚本、写提示词、自动化任务调度即梦图 + 视频根据提示词批量出图/短视频片段可数字人 + 视频生成生成数字人播报片段剪映后期合成拼接片段 Step 2:即梦批量图(每句话一张背景图)把 Step 1 得到的提示词,直接丢进即梦批量图。 五、总结 & 资源用 WorkBuddy + 即梦/可 这套组合,我的视频制作效率大概提升了 3-5倍(保守估计)。

    1.4K01编辑于 2026-05-06
  • 来自专栏机器之心

    你还说这是AI?我们体验了一波生成亚洲人最好看的文生图大模型

    明亮面部,柔和光线,白色吊带露出腰部,白色喇叭阔腿长裤,赤脚,,双手自然深插裤袋,下巴微抬,目光平视镜头,表情冷静自信,浅灰色背景,全身构图,街拍风格 让这位 AI 模特换上指定款式的服装,再使用一下可视频功能 将这张图片一键输入「图视频」,静态人物鲜活了起来: Prompt:美女微微一笑,拨动了头发,动人心弦。 另一方面,可图 1.5 生成的画面质量显著提升。 同时,基于可 1.6 的图视频能力,即可生成自然、真实的动态服装展示视频,让商品展示更具感染力与真实感。 商业广告场景之外,这种让任意静态图动起来的一站式方案,还可以加速影视作品制作: 目前在可 1.5 模型高品质模式中,还支持仅使用尾帧完成图视频,比如向前生成 5s/10s 的视频,非常适合生成商品展示 疯狂的 2024 可 AI 的进化之路 在 2024 年的末尾回顾可 AI 这一年的发展历程,一定会让关注国产大模型的用户们百感交集。

    1.8K10编辑于 2025-02-15
领券