首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 腾讯云LIVSYN:破解具身智能WAM模型数据采集瓶颈与端云一体化基座

    构筑无本体采集矩阵:Livsyn端云一体化数据基础设施 为解决高成本、单一视角的物理采集限制,腾讯云推出了 LIVSYN 平台。 云端高性能存储底座: 采用 腾讯云对象存储 COS + GooseFS 高性能缓存系统 的架构组合,打通从科技本地 IDC 到云端开发训练平台的数据迁移专线。 释放端侧与云端算力:多模态数据采集与存储指标解析 通过软硬件协同,LIVSYN 生在数据质量(输入端)与模型生产效率(处理端)上实现了具体的量化指标跃升: 突破存储与多机协同吞吐率: 借助 GooseFS 落地多元真实场景:打通从碎片化采集到工业部署的链路 LIVSYN 提供了一条同一套数据链路服务 VLA 动作学习与 WAM 世界状态预测的闭环。 锚定世界模型演进路线:以统一接口消除跨硬件迁移损耗 在具身模型加速进化的节点,腾讯云 LIVSYN 的核心技术壁垒在于将异构的人类动作与观测数据对齐到了通用的 UMI 接口。

    16910编辑于 2026-06-11
  • 面向WAM时代的无本体人类操作数据采集与训练闭环

    Livsyn提供端到端无本体数据采集与治理方案 腾讯云LIVSYN生产品体系的核心是针对WAM数据需求提供的“人本”采集解决方案。 软件平台LDP(Livsyn Data Platform)实现了从端侧采集、数据回放/标注/审核,到生成VLA/WAM训练数据集的端到端闭环。 科技借力腾讯云存储实现数据基础设施升级 在模型训练规模化过程中,科技原有架构存在数据分散形成孤岛、多机共享能力不足、存储带宽制约训练周期等痛点。 来源:2026腾讯云AI产业应用大会LIVSYN演讲材料,内容基于AI Ascent 2026演讲摘要、NVIDIA WAM术语表及DreamZero与Fast-WAM论文。

    21210编辑于 2026-06-11
  • 具身智能WAM模型训练的数据闭环:UMI采集与腾讯云存储支撑方案

    "World Action Models are Zero-shot Policies" (arXiv, 2026)、Fast-WAM (arXiv, 2026)、UMI paper UMI数据方案与LIVSYN 生产品矩阵落地 针对上述需求,腾讯云LIVSYN推出UMI(Universal Manipulation Interface)数据体系,核心优势为多样性上限更高、跨本体差异更低:手持/穿戴式采集方式可覆盖家庭厨房 数据来源:UMI paper、LIVSYN生产品参数表 存储与训练效率量化提升 VLA大模型训练规模化后,传统本地磁盘+NFS存储模式存在三大痛点:数据分散形成训练孤岛、多机共享能力不足存在一致性风险 数据来源:腾讯云COS+GooseFS方案参数、科技存储架构实践 端云一体化数据闭环落地路径 同一套无本体UMI数据资产可同时服务VLA动作学习与WAM世界状态预测: 端侧通过Grip/Ego/DEX 数据来源:LIVSYN生端云一体化架构图 技术适配性与方案获奖背书 本方案的技术领先性体现在三点: 范式适配:完全匹配WAM模型对“带动作标注的视频序列+世界状态变化覆盖”的核心数据要求,UMI数据的跨本体低差异特性被

    24210编辑于 2026-06-11
  • 来自专栏Java面试教程

    意料之中、要求3-5年的leader,最后选了应届

    闲谈 大家好,我是了不起,前段时间,了不起在当面试官,挑了许多人给leader去面谈,最后可能是因为把之前某个想走的同事留了下来了,所以对新人没有太多的要求,所以选了应届。 感觉如果是这种情况,还是比较利好应届的,不然有些业务比较特殊的活,需要有能力接下上一任的工作,对面试的人要求会非常的高,人也不好找,最后头疼的也是我。

    27100编辑于 2024-11-22
  • 研究入局 AI Agent,不是跟风,是抓住未来 3-5 年的技术红利研究

    毕竟大模型的热度似乎已经从“狂热期”走向了“冷静期”,很多人担心,等自己研究毕业,这波风口早就过去了。 一、为什么说Agent是研究的“性价比之王”? 3.适配层面:完美贴合研究“论文+练手+找工作”的三重需求研究阶段最核心的目标,就是“发得出论文、练得出能力、找得到好工作”,而Agent领域刚好能实现三者兼顾:做架构创新,可以产出高质量论文;做工程落地 三、给研究的Agent深耕建议:别跟风,找对自己的切口最后,给想入局Agent的研究同学几点实在的建议:别盲目跟风,找对自己的细分方向:不要什么都学,先选一个自己感兴趣的方向,比如多智能体协作、Agent 说到底,Agent不是一阵风,而是未来3-5年AI领域最确定的技术趋势之一。对研究生来说,现在入局,不是跟风,而是抓住了一个用小成本撬动大价值的机会。

    19910编辑于 2026-05-16
  • 来自专栏Java项目实战

    平替 SkyReels: 混元升级版 图视频

    SkyReels加上混元Video则可以实现图视频的高精度视频和加速模型,并且实际测试的话,很低的分辨率就可以实现图视频加上目前本地测试的时长也是完全可以接受的,而且测试的图视频超级的清晰,不会出现扭曲 1.首先拖入工作流 2.下载对应的模型 a.官方的图视频模型,相当于大模型,需要放在大模型unet的文件夹 b.对应的VAE,这里搭配的也是跟官方精度一致的混元F16 Vae,放在vae 但是为了速度,我们缩小到50帧左右就可以,所以我给到了57帧,但是视频的帧率我给到了30帧,希望更清晰一点 实际测试开了多个AI应用的前提下,846S完事,目前测试多图多次测试,确实从表现来说完全可以追的上可

    1.4K10编辑于 2025-02-25
  • 用 WorkBuddy + 即梦可 做 AI 短视频:我从0到1的全流程实录

    早期的全流程基本是纯手动:想脚本用 AI 对话框复制粘贴、图去即梦网页一张张点、生成结果不满意再改提示词重新来……一天折腾下来,出不了几条片子,人还特别累。 本文记录我用 WorkBuddy + 即梦/可 搭建 AI 短视频流水线的完整实战过程,供大家参考。二、我的工具组合:各自负责什么? 先说清楚每个工具的定位,避免重复造轮子:工具角色具体负责WorkBuddy大脑 + 指挥官生成脚本、写提示词、自动化任务调度即梦图 + 视频根据提示词批量出图/短视频片段可数字人 + 视频生成生成数字人播报片段剪映后期合成拼接片段 Step 2:即梦批量图(每句话一张背景图)把 Step 1 得到的提示词,直接丢进即梦批量图。 五、总结 & 资源用 WorkBuddy + 即梦/可 这套组合,我的视频制作效率大概提升了 3-5倍(保守估计)。

    1.4K01编辑于 2026-05-06
  • 来自专栏翩翩白衣少年

    时隔1月再升级,真有望成世界第一视频生成模型。

    所以没有申请的朋友还是先排队申请吧,数据显示当前可AI在线申请人数超50万人次。 基础模型升级,生成更高分辨率的视频 这次的基础模型升级,提高了可生成的视频分辨率。 而现在,通过可,你只需要简单的操作,就能实现专业级别的运镜效果,甚至还有自动大师运镜功能来为你提供最优化的运镜方案。 运镜控制当前仅支持文生视频的场景下,图视频场景暂不支持。 点击生成后,大致需要等待3-5分钟左右即可生成一个5s或10s的视频。 下面的视频就是根据我之前的复杂描述词生成的,效果还不错吧!运镜上采用的是垂直运镜效果。 视频 其实严谨点,这次生成的我不太满意,特别是摇扇子这一动态有一点瑕疵,也许时间调长一点成效果会好一些,但是总体上来说。 是不是跟小时候你爷爷在农村树下乘凉一般无二! 在网上下载了一张蟹老板奔跑的姿势图,体验在快影上图视频的效果。 经过了5分钟左右生成的视频效果: 视频 反正我觉得跑的挺自然的,如果手里没有那个篮球的话,感觉效果会更好。

    97010编辑于 2024-07-08
  • WorkBuddy做财务故事小视频:从脚本到成片的完整实操#WorkBuddy#

    一、我的工具组合工具角色负责什么WorkBuddy大脑+指挥官写脚本、拆分镜、生成提示词即梦、可(任选其一)手脚根据提示词批量图、视频片段剪映/FFmpeg组装工合成成片、加字幕、配音核心思路:WorkBuddy 只管“动脑子”,视频交给专业工具,最后合成。 Step2:批量生成分镜图把Step1得到的提示词,直接丢进即梦或可批量图。 三、两条省积分、提效率的技巧技巧1:积分省着用图消耗较少(约10-30积分/张),视频消耗较多(约100-200积分/条)建议先用图片验证Prompt效果,满意后再生成视频问思路、查资料用Ask模式 ,需要视频才切Craft技巧2:固定“角色库”提前让WorkBuddy生成3-5个固定角色描述(财务老李、小王、检查组等)每次生图时带上角色描述,确保人物形象前后一致这样系列视频里的角色不会“变脸

    22710编辑于 2026-06-22
  • 来自专栏web前端教室

    我前端零基础,照着网上刚做完一个项目,现在该怎么用它找工作?

    接下来就投简历,你前端初学者零基础,就得结合自己情况,那些要求3-5年经验的就不要浪费时间投简历了,没可能的。 我个人觉得,可以多尝试工作年限在一年或接收实习的公司。 反正找工作这事,就是多管齐下,没有哪个办法是一试就的。 在这个找工作的过程中,可以通过找人问问题的方式,把自己的前端项目,打磨的好一些。不要随便写完了,就急吼吼的拿去当作品面试。

    84650发布于 2018-02-06
  • WorkBuddy连接器炸裂上线,彻底告别复制粘贴!

    � **截图位置**:连接器界面,标注腾讯文档入口────────────────────────────────────────玩法2:AI短视频生成流水线工具组合:WorkBuddy + 即梦/可工作流 图视频片段5. 自动剪辑成片效率对比:环节传统方式AI流水线提升分镜拆解3-5小时10分钟18倍图片生成2-3天30分钟96倍视频生成5-8小时40分钟7.5倍**总计****3-5天****1.5小时****30倍*

    98520编辑于 2026-05-14
  • 来自专栏新智元

    快手「可」再进化!视频续写可达3分钟让全球网友炸锅

    编辑:编辑部 【新智元导读】没想到,刚刚上线了图视频和视频续写功能的可AI,竟已在全世界互联网上引爆了视频创作的热潮! 歪果仁都「馋哭了」 是的,这几天快手可最新上线的图视频和视频续写功能,不仅在国内掀起一波试用的热潮,还「馋哭」了一众外国网友。 如今,X上已经铺满了可生成和续写的视频。 所以说,这次可的两大全新功能,究竟强大在哪里? 图视频 首先来看第一个功能——图视频。 这一功能直接做到了化静为动,让我们从此可以按需定制视觉叙事。 B站up主「呜哩智绘」,用可的图视频功能,生成了各个样子的戴珍珠耳环的少女。 人物动作、面部表情、手部细节、视频中的光影,都堪称完美。 「呜哩智绘」直言:这是「目前我玩过的最稳定好用的图视频」。 网友也表示—— 「喜好儿网」则用可让历史人物活了起来。 网友们惊呼,可做出的爱因斯坦简直跟纪录片一样。

    1.1K10编辑于 2024-06-27
  • 来自专栏猫头虎博客专区

    快手「可 AI」重磅上线苹果 App Store:掌上创意生产力新平台,激发你的无限想象力!

    正文 安卓用户福音:可 AI 初代版本就是快影! 很多朋友可能不知道,其实 “可 AI”最早的版本就是在安卓端推出的“快影” 。 快手 AI 应用再创新:“可 AI”带来了什么? 快手“可 AI”进一步延展了其内容创作布局,基于快手自主研发的“可大模型”与“可图大模型”,使得用户能够轻松体验强大而直观的AI创意工具。 ✨ 图影,文生图:掌上生成动态创意内容 1. AI 视频生成功能 “可 AI”主打的AI视频生成功能具有两种模式:“文生视频”和“图视频”。 图视频:将静态图像转化为动态视频。你可以上传一张图片,例如一朵静态的花,然后让“可 AI”将其生成一个盛开的动态视频,令画面栩栩如。 随着技术的不断进步,“可 AI”将为用户提供更多创意和自由度! 总结 ✨ **“可 AI”**的推出,为用户提供了一个独特的创意生产力平台,让创意内容的生成更加触手可及。

    89410编辑于 2024-11-09
  • 实测完快手的AI视频「可」后,我觉得这才是第一个中国版Sora

    昨天,6月6号,是快手的13周年日。 在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。 可。 给我也干了个措手不及。 快手的可,就是我认为正儿八经的,经过验证的,而且还能上手直接用的,第一个中国版Sora。 不过可是大模型,真正变成产品,还是有很多限制的,比如算力、功能、开发周期等等。 如果大家留意一下过往的所有AI视频,你用图视频的方式去做,是几乎不可能做出这种交互镜头的,都是用蒙太奇或者AE去替代掉。而现在,有希望了。 这一点,快手可,除了那个没发布的Sora之外,基本碾压所有同行。 我现在非常期待可的图视频功能。 现在,我真的非常非常想用快手可,把他做出来。 毕竟,这是真正的第一个,中国版Sora。 哪个创作者会不兴奋,会没有创作欲望呢? 就看什么时候,快手可能更新它的图视频功能了。 我期待着那一天。

    69910编辑于 2025-04-14
  • 国内可用的 AI 视频生成 API 有哪些?

    二、国内主流视频生成API横评截至2026年6月,国内可用的视频生成API主要有以下几家:2.1可Kling(快手)维度说明所属厂商快手最新版本Kling2.0支持功能文生视频、图视频、视频延长视频时长 2.2豆包Seedance(字节跳动)维度说明所属厂商字节跳动(火山引擎)最新版本Seedance2.0支持功能文生视频、图视频视频时长5-10秒分辨率1080P画质评价★★★★☆仅次于可,人像和动作场景表现好生成速度 画质相比可和豆包还有差距,但对于简单演示、模板化短内容够用了。 2.5Vidu(数科技)维度说明所属厂商数科技最新版本Vidu2.0支持功能文生视频、图视频、参考图保持角色一致性视频时长4-8秒分辨率1080P画质评价★★★★☆角色一致性有独特优势生成速度★★ 需要图视频还是纯文生视频?视频时长要求多少秒?

    29910编辑于 2026-06-16
  • 2.0正式发布 - 现实,真的不存在了。

    图的Prompt是这样的: 电影质感,特写镜头,一位年轻女小丑的脸部,带有红色大鼻子、红色腮红妆容,眉毛浓密,戴着圆形金丝眼镜,头发是红蓝相间的蓬松卷发假发,表情严肃、带有内敛的悲伤感,皮肤细腻,细节写实 我视频的prompt是这样的:小丑妆女孩定格凝视镜头,眼神冷静中透出疲惫,镜头缓慢后拉,微微抖动聚焦眼神,他轻轻摘下眼镜,嘴角抽动仿佛想笑,最终眼神低垂不语,气氛压抑克制,镜头暗转隐入阴影。 还有这个,可图2.0成的很漂亮的亚洲女孩。 我想让她摘下眼镜,然后走起来。 看看可1.6。 抬了一个假动作。 我们再看看2.0。 不仅把眼镜摘下来了,而且眼镜里的反光,都模拟了出来。 可1.6是这样的。 说实话,动作啥的已经很好了,但是从我们人类的直觉看过去,可能细看之下,还是会有点假。如果你感受不到假的话,那对比2.0成的内容看看。 老人们敬礼后,相视一笑,一的记忆,都在这一刻了。 一个看着专业但是却是菜鸡的跳水。 监控风,怪兽的第一次现身。 她性感地吞下“快乐”,这是一个时代,用消费麻醉灵魂。

    70810编辑于 2025-04-16
  • 来自专栏BestSDK

    为什么人脸识别SDK,将是开发APP必备

    精彩内容 经过多年市场验证,云端人脸识别无法满足企业对身份信息存储的高安全性要求,单一物特征识别技术如虹膜识别、静脉识别等无法保证身份认证的准确,人脸识别技术该以何种姿态服务产业? ,安全系数比单一物特征识别技术高出数个数量级,满足金融、电信、能源、交通、教育、司法、公安、边检、社保等众多领域对身份认证体系的高安全等级要求。 云人脸识别技术已成功服务中国人民银行等众多大型金融机构。 云智能人脸识别能力平台实现人脸+声纹+指纹+证照识别技术的融合应用 随着深度学习技术的应用,人脸识别等生物特征识别技术取得了突飞猛进的发展,但是,单一物特征识别技术准确率无法到达,就像我们在辨认一个人的时候 云智能人脸识别能力平台是捷通华声于2015年推出的云全智能能力平台系列产品之一,云全智能能力平台为系统集成商、解决方案提供商、软件开发商等合作伙伴提供云语音合成、语音识别、手写识别、OCR、声纹识别

    3.7K50发布于 2018-02-27
  • 来自专栏一个正经的测试

    10分钟学会云中飞仙爆火视频(附提示词)

    它以其强大的“文生视频”和“图视频”功能,让视频创作变得简单而高效,甚至可以说,让每个人都有机会成为“仙侠”世界的造梦者。 打开可AI,进入“AI视频”: 首先,你需要打开可AI官方网站 [此处插入可AI官网链接],然后找到“AI视频”功能。 方法二:图视频——先绘蓝图,再筑影像 “图视频”则更像是先画好蓝图,再进行影像构建。它赋予了你更大的控制权,让你更好地把握视频的风格和细节。 文生图,构建蓝图: 在可AI中,选择“文生图”功能,选择可1.5模型,输入你的创意描述。 提示词示例: 一位美丽的中国古风女子,在翻滚的乌云和闪电中翩翩起舞。 图视频,动态呈现: 找到画质增强后的图片,点击生成视频,进入图视频界面,选择可1.6模型。创意描述可以直接复用文生图的提示词。

    1.4K00编辑于 2025-01-07
  • 来自专栏翩翩白衣少年

    O1 正式发布,全球首个统一多模态视频大模型,强得可怕!

    12月一到,AI 圈的“王炸级”产品又双叒叕来了—快手旗下可(Kling AI)正式发布了被称为 “全球首个统一多模态视频大模型”—Kling O1(可 O1)。 O1 的目标是: 把这些能力统一到一个模型,用户可以在同一个输入通道里完成图视频、文生视频、首尾帧视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务。 以前我们做视频,AI 模型是“偏科”的:有的擅长文生视频,有的擅长图视频,有的擅长修补画面。 但可 O1 的出现,打破了这一切。一个模型,搞定所有。 O1 的五大核心亮点 一、全能引擎 特点:全球首个统一多模态视频大模型 可•视频O1模型,首次在视频生成领域,将参考生视频、文生视频、首尾帧视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务 还可以在可 O1 多模态指令输入区,进行以下创作: 1)图片/主体参考 为提供更好的角色/道具/场景一致性,可 O1 首次支持你通过上传多视角图片,进行「主体」的创建。

    1.3K10编辑于 2026-03-16
  • 实测完Runway深夜上线的最新模型Gen4,我觉得可还是No.1。

    Gen1是个video to video模型,只能做视频风格的转绘,没法文生或图视频,而Gen2,第一次支持文生和图生了。 那时候,我我花了5个晚上,用MidJourney生成了693张图,用Gen2成了185个镜头,最后选出来了60个镜头,剪辑成了我最喜欢的,《流浪地球3》的AI预告片。 所以,没有参考功能,Gen4的生成界面,就变成了光秃秃一坨,只有图视频功能了。。。 对,文生视频也没有,估计要跟着多主体参考一起出,现在能用的,就只有图视频。 再说说图视频模型。 就,相比于Gen3,有进步。 但是跟目前公认的图视频最好的模型可1.6比,明显还差了一截,更别提跟Google那个牛逼炸的Veo2的文生视频出来的质量比了。 上面是RunwayGen4,下面是可1.6。 Runway走的更快些,但是完全是直接穿过花的,光影也有点问题,可1.6你是能明显看到人和花的物体碰撞的。而且Runway的花全糊了,细节也都丢了。

    79100编辑于 2025-04-14
领券