

杭州“六小龙”的创新矩阵中,具身智能公司云深处科技选择的赛道有些 “与众不同”——跳出行业当下的热门叙事“人形机器人”,更专注于工业级四足机器人的深度研发。
2017年成立以来,云深处科技主要聚焦电力和能源等高危场景的全自主巡检与应急解决方案,从他们第一款上市的机器人的命名——“绝影”,也可以看出创始人兼CEO朱秋国的产品逻辑。
绝影是《三国志·武帝纪》中曹操的坐骑,书中称“宛城之战张绣突袭,曹操骑“绝影”突围”。朱秋国认为:“机器人要进入恶劣、危险、复杂的环境中执行任务,而不是要替代人类。”
作为浙大副教授,朱秋国研究领域主要聚焦于仿人/仿生(足式)机器人与机器智能,在人形机器人技术方面具备扎实基础。云深处科技于2024年曾发布过人形机器人DR01,但朱秋国对腾讯科技表示,“做人形机只是技术储备,短期并不考虑商业化”。
他的逻辑是:虽然四足与人形共享同一技术底座——感知、运动控制、导航、规划及数据闭环,在四足上打磨的"移动"能力可迁移到人形,但是人形机器人还需要突破精细化的“操作”:双臂、手部、力控与手腿协同,另外,未知环境导航、力控手部、通用抓取、VLA跨场景泛化技术仍在爬坡期,商业上的稳定性、能耗、成本也远远未到拐点。
基于以上这些问题,他判断:“人形机器人进入家庭及有成熟的应用场景需要至少10年。”
正因为看到这一长周期发展趋势,云深处科技选择了工业路线这种更为务实的发展路径。
云深处于2025年7月完成了最新一轮近5亿元的融资,本轮融资主要用于加速具身智能产业化布局,为公司在机器人长周期发展中提供充足资金支持。在总融资额方面,云深处暂未透露具体金额。
近日,腾讯科技与朱秋国聊了聊具身智能领域的技术路线,资本对这个领域的狂热与错配、产业化成熟的时间点等问题。

以下是对话实录:
01
从“极端场景”开始的“笨功夫、苦功夫”
腾讯科技:你的一个理念很有意思,机器人不是用来替代人,而是在人类需要的时候挺身而出。这个理念是不是也影响了云深处科技从一开始的产品设计到后来的商业模式?
朱秋国:是的,所以从一开始我们就是希望在一些危险、恶劣、复杂场景中能够帮助人,代替人去做重复危险的活动。

图:海拔4800米的可可西里,云深处科技绝影X30机器狗在暴风雪中工作
腾讯科技:云深处科技选择从刚需场景,比如极端的环境作业切入。未来进行场景拓展的可复制性强吗?
朱秋国:场景没有可复制性,场景不同,具体的解决方案和系统也会有所不同。
但从机器人本体来看,许多能力基座是一样的,具有可复制性。像具身移动、跨地形导航,这套算法放到最后一公里同样能用。
腾讯科技:从一个场景扩展到另外一个场景,需要付出多长的时间成本?
朱秋国:其实是蛮长的。比如说像电力巡检里面,我们也不断地在深耕,不断地在优化,不断地在改进,它是一个长时间的过程,它不是说结束了就结束了。但做好一件事情是要下笨功夫的,要下苦功夫。我们在这个领域下的笨功夫、苦功夫,别人要来做也要投入、也要经历这个过程。
腾讯科技:云深处切入的场景对未来自身的规模化,会有一定的阻碍吗?
朱秋国:会有,因为现在很多的方案它也是刚刚成型,所以在使用的过程中大家会发现成本还会比较高。我们当然会考虑,就是说在一个合理的方案情况下,我们怎么能够把整个机器人本身,包括整个的方案能够做得更加有更好的价格,然后让更多人去使用。
腾讯科技:大模型爆发后,给机器人重新带来了一波新的热度,你怎么看这个现象?
朱秋国:大家喜欢把大模型跟机器人混为一谈,但这真不是一码事,也不是简单的叠加。大模型可以充当机器人的大脑,这个是对的。
强化学习也会用在大模型里边,也同样可以用在机器人里边,但它的算法本身是不一样的。强化学习只是说底层是通过强化的方式来训练,但跟大模型、跟机器人是两码事情。
当然,大模型的出现确实给机器人带来了很大的想象空间。大家觉得机器人未来带一个大模型变成一个大脑,那它变得更聪明,可以做一些长序列的任务,这个事情是有想象力的。所以现在讲的具身智能的问题,就是这两者结合在一起。
腾讯科技:大模型给具身智能带来的想象空间具体表现在哪里?
朱秋国:大模型只是为机器人提供“软能力”的算法,其作用远没有想象中那样万能。要让机器人真正变聪明,关键是把这层算法与机器人的运动系统紧密耦合,分别解决移动和操作两大核心能力。
移动(Locomotion)是在复杂环境中自由穿行的能力,本质上依赖策略网络。传统几百兆级的小模型很难覆盖现实世界千变万化的地形:台阶、沟壑、梅花桩……要想让机器人跨越这些障碍,必须采集大规模、异构的运动数据,并用 5~20 亿参数级的视觉-语言-动作(VLA)模型来学习。大模型的长序列记忆和表征能力可以帮助机器人更好地理解“这块是草地,那片是沙地”,但仍需针对运动任务的特定算法框架才能落地。
操作(Manipulation)指的是手臂抓取和装配这样的动作,同样需要大规模数据集,但现阶段算法尚未收敛,泛化能力薄弱:在一个场景里能顺利抓取,换个物体或环境就可能失败。要实现通用操作,还得继续扩充多样化数据、改进策略学习方法,并融合大模型已有的视觉语义理解能力。
大模型为机器人带来的是成本可接受的感知与记忆框架,而真正的“聪明”还要靠针对移动与操作的高质量数据、策略网络和工程化算法的深度融合。
腾讯科技:VLA大模型受到的关注度很高,未来是否能有一个VLA,实现端到端的通用能力?
朱秋国:现在还没有。举个例子:我做家庭服务的手臂操作,你做工厂装配——关键在于最后能不能把数据共享起来。只有把大家的数据串起来,一个模型才有可能既能干工厂,又能做家务。否则我在家庭场景里,怎么去适应你在工厂的装配?那些我都没见过。而且这不只是视觉问题,还牵涉到关节力控、触觉等多种信息。
所以,做一个真正通用的 VLA 很难;但把 VLA 当作“框架”是可以的。只是指望现在拿出一个 VLA 就能这也会、那也会,不现实。具身智能的最可行做法还是:先把单一场景训练扎实,最后再把这些能力串联起来。
我们更希望机器人有推理能力,不依赖大规模的数据采集,也能自主判断,所以我们希望尝试一个新方向——机器人的“世界模型”。但是研究还在进行中,效果目前还没达到预期。
腾讯科技:云深处科技从绝影X30到山猫M20,在四足机器人的运动控制、环境感知、决策规划方面有很多技术储备,如果要做人形机器人,有哪些技术是共通的?
朱秋国:很多都是共通的。人形相比四足的一个最大差别就是它有手臂,狗是没有手臂的,但是人形有双臂,这是唯一的差别。除了这个之外,具身的移动几乎可以覆盖,可以把它移植到人形上。但是操作这一块是人形所独有的。
所以机器狗到人形机器人,它的硬件积累基础,包括具身移动的基础,都可以比较迅速地应用到人形上去,这个没有任何问题。人形有手臂、手跟腿的协同,这个也没问题,这也是我们讲在具身移动里面的全身运动能力。
腾讯科技:为什么选择在2024年推出人形机器人?这个时机有什么考虑吗?
朱秋国:对我们公司来说,无论从公司的技术储备还是我个人的研究领域来说,要做一个人形其实并不难。
但是我们认为机器人从应用的角度来说,还有很长的路要走。当初做一个人形,只是为了表明我们也可以做,也在人形机上做了一些早期的应用研究。
为什么是 2024 年?背后有个小故事。杭州亚运会本来有个用人形机器人传递火炬的项目,最初交给了云深处科技。
但考虑到现场直播的风险,担心万一传递后机器人失稳摔倒,影响太大,节目最终没排。那是在 2023 年——当时样机其实已经做完了,所以 2024 年我们就把它拿出来做了次展示。
腾讯科技:现在如此多的人形机器人,大力投入人形机器人真的不是一个好时机吗?
朱秋国:做人形是一个很长的过程。要不要做是每一个公司战略决策的问题。如果说一家公司愿意投入很长的时间,愿意投入大量的研发,愿意坚持长期主义去坚持做人形机器人。
我有时候对外说要十年磨一剑,十年之后才有用。你愿不愿意花十年的时间?你可能要投入10个亿进去,等到那一天春暖花开。
我们在人形上暂不急于商业化,更侧重技术迭代与体系化积累。人形整体成熟度还不够,如果直接落到商业场景,对机器人而言仍有不小挑战。
腾讯科技:人形机器人需要十年才能有成熟应用?
朱秋国:有些应用可能不需要10年,可能3年、5年之后陆陆续续有应用场景。但是成熟应用或进入到家庭至少需要10年的时间,这是我的一个预判。
腾讯科技:10年的时间确实挺长,但是现在资本对于人形机器人更青睐,您觉得资本的预期是不是和技术发展周期之间有错位?
朱秋国:那得问资本界,肯定是有错位的。人形过去这几年是不是达到了他们的预期?我相信他们心里有把秤。按照马斯克当初说的,他应该到2025年应该是有批量化生产的,目前也没实现。所以我们想说万事万物还得符合事物的客观规律。
腾讯科技:业界常说美国会侧重大脑,中国专攻身体,您觉得现在这种分工的格局已经发生了变化了吗?
朱秋国:最近在海外走访后,我的直观感受是:中国在供应链端确实有很大优势。我看到美国、欧洲,包括新加坡等地,更偏重软件侧,所以“以中国为本体制造的主场”这件事本身就更占优,这是事实。在欧洲做出一台机器人,成本普遍更高;而在中国,制造业和完整产业链让成本与交付都更可控。这是当下中国的一块显著长板。
当然,中国也在变化:未来不会只停留在做本体,还会在“大脑”(软件与智能)层面持续发力。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。