作者:毛烁
在自动驾驶领域,Tesla将大量AI推理能力部署在车端本地;在工业场景中,Siemens等企业把模型运行在工厂边缘服务器中;在终端设备上,Apple也在持续强化设备端AI计算能力。
事实上,当下的AI算力的部署,正从过去以数据中心为核心的“云端集中式”,逐步向边缘与桌面侧延伸,并开始进入企业的日常办公环境。
01 OpenClaw点燃了端侧算力 DGX Spark卡位新入口
这背后的原因,与AI的应用形态的变化直接相关。最近,以OpenClaw为代表的“自主智能体(Autonomous Agents)”编排框架的兴起,开始跨越云端大模型的经济学与安全边界。
过去两年,绝大多数对大语言模型(LLM)的调用还停留在“线性交互(Linear Processes)”阶段。人类输入一段提示词(Prompt),模型在云端完成一次前向传播(Forward Pass),生成文本后释放算力。在这种模式下,系统的吞吐瓶颈在于人类的打字和阅读速度,Token 的消耗频率较低且可控。
但是,最近OpenClaw的爆火,推动了用于长周期、自进化的Agent的层编排框架大量落地,大模型也开始从“被动问答器”升维成了整个软件系统的“中央处理器”。
随之,当AI演变成了需要“7 X 24小时”的全天候挂机运行、自主规划执行任务的“数字员工”,而AI系统的特征也发生了三个变化:
第一,是KV Cache与上下文窗口的膨胀。在OpenClaw的运行机制中,Agent 并不是单次输出。为了完成复杂指令(如“排查并修复这段核心业务代码的内存泄漏”),Agent 需要在后台启动高频的“规划-执行-观察(ReAct)”闭环,并反复拉取庞大的本地代码库,自主编写测试用例,阅读编译器的报错日志,同时结合历史对话不断进行自我反思(Self-reflection)和修正。在这一过程中,往往会产生大量的上下文堆叠,动辄就需要填满百万Token 级别的上下文窗口。
另外,如果用户依赖云端 API,不仅要承受海量上下文(Context)在公有云中双向传输带来的巨大延迟,还会因为反复向云端传递冗长的历史上下文,而产生极其高昂的Opex运营支出(API调用成本)
第二,是并发推理请求的高昂价格。我们知道,像OpenClaw框架搭载自主智能体,可以长时间自动工作。因为OpenClaw这类框架支持多智能体协同(Multi-agent),Agent会拆解任务并Fork出多个子Agent并发执行。
如果把如此规模的推理任务全部放在云端,并按照API的Token用量计费,整体成本会迅速攀升。以GPT-5.4 为例,其计费大致为:输入$2.5/100万Tokens,输出$15/100万Tokens。在高并发、长上下文的企业场景下,Token消耗会被快速放大,最终的推理成本将会非常昂贵。
第三,是系统级执行的“物理隔离”。对用户来说,最核心的痛点在于执行权限(Execution & Escalation)。由于“自主智能体”会被赋予调用本地工具、执行CLI命令行,读写本地文件系统等一系列高权限的能力。而如果让云端模型直接驱动这些操作,就意味着用户需要把内部数据库(核心代码仓库)的访问权限暴露给公有云环境。而一旦模型出现幻觉,或遭遇Prompt Injection(提示词注入)攻击,Agent就将触发越权执行,造成严重的数据泄露风险。
因此,在“自主智能体(Agent)”时代,企业所需要的,不再只是单一形态的云端算力,更需要本地端的算力体系。只有当算力能够在数据中心、企业机房乃至桌面端之间灵活分布时,AI才能在不同场景中实现低延迟、高隐私和高效率的运行。
但是,当企业在评估企业级Agentic AI(智能体AI)的本地化部署时,经常会陷入一个硬件选型的“死胡同”。传统的PC工作站算力太弱、显存带宽太窄,根本无法支撑千亿参数模型的全天候常驻运行;而直接采购企业级机架式服务器(Rack Servers),又面临着供电改造、精密空调散热、机房噪音以及高昂的部署门槛等一系列“重资产”难题。
基于这一定位,NVIDIA 去年发布的NVIDIA DGX Spark,正是这一“桌面数据中心(Desktop Data Center)”理念的具体落地。其既避免了企业级机房部署的高门槛,又突破了传统 PC工作站在显存容量、带宽和 AI 计算能力上的限制,使企业能够在本地环境中长期运行和调度大模型与AI Agent。
在今年的GTC 2026上,NVIDIA DGX Spark也迎来了一系列更新。
02 128G统一内存完美承接“自主智能体”
在讨论更新之前,有必要先看清NVIDIA DGX Spark 本身的硬件基础。因为诸多能力,实际上在其架构设计之初就已经决定了。
NVIDIA DGX Spark搭载的是NVIDIA Blackwell架构Tensor Core的GB10 Grace Blackwell超级芯片。
这颗芯片自从NVIDIA DGX Spark发布开始,就能感觉到,NVIDIA释放了一个非常明确的信号——NVIDIA开始把原本集中在数据中心服务器的大模型推理能力,下放为能够部署在普通办公环境中的算力节点。
这一变化首先体现在能效上。NVIDIA DGX Spark的典型功耗约为140W,配套电源适配器的额定上限为240W。放在传统AI基础设施的参照系里,这组数字很突出。过去,承载120B级模型的本地推理,通常需要多卡服务器或HGX级平台,整机功耗往往达到千瓦级。尽管NVIDIA DGX Spark还谈不上替代数据中心,但它已经显示出新的方向,在接近高端移动工作站的功耗范围内,提供足以支撑大模型常驻与 Agent工作流运行的本地算力。
这一能力提升,核心来自底层架构的重新组合。Grace CPU与 Blackwell GPU 之间的高速互联,以及其128G的统一内存架构,使CPU与GPU 不再像异构计算平台那样依赖高成本的数据往返,更适合处理大模型推理过程中频繁发生的权重读取、状态维护与上下文切换。
这也是为什么,在实际的Agent推理场景中,决定体验的因素往往不只是峰值算力。进入长上下文、多轮交互和工具调用更加密集的任务后,模型权重装载效率、KV Cache 占用以及内存带宽压力,往往比理论的FLOPs更早触及系统瓶颈。
另外,NVIDIA DGX Spark原生支持NVFP4的MOE模型,4位量化的精度降低了模型权重的存储开销,也减少了推理过程中的带宽占用,使系统在相同功耗与内存条件下,可以容纳更大的模型工作集,并提升整体吞吐效率。
放在Agent中,当一个Agent在后台拉取完整的GitHub项目并进行全局代码分析或漏洞扫描时,NVIDIA DGX Spark不必像传统设备那样等待上下文逐步处理,而是能够并发处理这些超长Prompt,实现稳定的流式响应(Fluid Interactions)。
当统一内存、高速互联与NVFP4 这类压缩技术叠加在一起,NVIDIA DGX Spark就具备整体性的关键能力。这就是在单机或小规模集群内,本地容纳过去更依赖数据中心部署的模型权重和更大规模的KV Cache。
03 突破Scale-out DGX Spark解锁“四机互联”
如果说单台NVIDIA DGX Spark是强悍的边缘推理节点,那么本次GTC上关于NVIDIA DGX Spark最让人感到兴奋的更新,莫过于其突破性的Scale-out(横向扩展)集群能力。
在最初发布时,NVIDIA DGX Spark初始配置仅支持通过ConnectX-7的线缆直接将两台设备互联。但这一次,NVIDIA通过全新的软件版本与底层固件更新,彻底解锁了NVIDIA DGX Spark的集群“封印”,将其变成了一个真正意义上的“桌面级数据中心”。关于NVIDIA DGX Spark的集群拓扑演进,我们可以将其拆分为两个层级:
第一层是“三节点直连(3-Node Direct Mesh)”。
在最新的更新配置中,开发者可以通过ConnectX-7线缆,将3台NVIDIA DGX Spark串连在一起,形成小型三节点互联集群。
在这种“三角直连”拓扑下,节点之间不需要先进入交换机再转发,而是由ConnectX-7直接完成点对点通信,链路更短,转发层级更少,消息往返时延也更低、更稳定。
对于大模型训练或推理中的Tensor Parallelism来说,这一点尤其重要,因为这类并行方式会频繁触发跨节点的激活值、参数分片和中间结果同步。一旦互联延迟偏高,GPU就会在通信阶段等待,整体算力利用率也会随之下降。ConnectX-7的价值就在这里,它不仅“网速快”,还能把高带宽、低时延、DMA/RDMA能力,以及面向GPU集群的通信卸载能力结合在一起,使这种无交换机的小规模Mesh,依然能支撑高频率的数据交换。
对中小型开发团队来说,这种三角直连拓扑的方式优势很明显,能省掉独立高速交换机的采购和运维成本,同时把3台设备的显存池和算力资源整合起来,让原本单机放不下的模型可以通过张量切分部署到这个微型集群中。
第二层基于以太网的“四节点全互联集群”。NVIDIA DGX Spark现在支持最多4台设备通过以太网交换机组建统一配置的集群。请注意,这里的以太网连接并不是普通的局域网,而是单端口200Gbps高速以太网。
从场景看,这意味着如果用户有四台NVIDIA DGX Spark,并配以一台高吞吐的200GbE交换机,他就将获得一个物理上解耦、但逻辑上完全统一的超级算力集群。
如果把场景换到Agent框架下的(如OpenClaw、NemoClaw)调度任务时,4节点集群不仅可以容纳超大参数量的单一模型,更可以顺滑实现“模型并行+并发请求处理”。比如,节点A负责处理Agent的长期记忆检索,节点B和C运行核心的大脑模型进行复杂推理,节点D则专门负责小型模型的高频工具调用验证。
这种能力,让NVIDIA DGX Spark彻底脱离了“个人电脑”的范畴,成为真正的企业级基础设施。
04 NemoClaw让Agent安全进入企业 原生支持NVIDIA DGX Spark
算力只是“肉体”,真正让 NVIDIA DGX Spark 在Agent时代具备“灵魂”的,是与其深度绑定的软件栈。
就像前文提到的,Agent一旦具备执行能力,就会引入两个核心风险:越权操作与隐私泄露。为了解决这一问题,NVIDIA 推出了开源软件栈 NVIDIA NemoClaw,其原生适配NVIDIA DGX Spark。
在当前开源Agent生态中,OpenClaw已经成为现象级的Agent编排框架。而NemoClaw可以理解为NVIDIA向这一生态提供的企业级增强版本。
在DGX Spark上,相比OpenClaw,NemoClaw的部署过程相被极大简化,只需执行一条命令(Single Command),系统便会自动完成整套环境安装——包括OpenClaw框架、常驻的Nemotron系列大模型,以及最关键的安全组件NVIDIA OpenShell。
需要强调的是,OpenShell是Agent安全架构中的关键一步。
作为 NVIDIA Agent Toolkit的核心组件,OpenShell在Agent与底层操作系统之间增加了一层独立的基础设施层。这意味着,运行在NVIDIA DGX Spark上的每一个Agent,都不再拥有直接访问操作系统的权限,而是被限制在OpenShell提供的安全沙箱中运行。
这使企业能够对Agent的行为进行清晰而可控的治理。具体体现在三方面:
第一是进程隔离。OpenShell会对Agent生成的每一个子进程进行隔离。即使某个子Agent因幻觉或恶意提示而出现异常,也只会在自身沙箱中失效,不会影响主系统,更不会污染本地文件环境。
第二是策略化网络边界。开发者可以通过策略规则精确定义Agent的网络访问权限。例如只允许访问企业内部特定IP段的数据仓库,同时完全阻断外网访问,从而避免敏感数据外泄。
第三是智能隐私路由(Privacy Router)。这是OpenShell中极具价值的一项设计。当Agent执行任务时,隐私路由器会动态判断数据敏感度。高敏感数据(如企业代码、专有工作流)会被强制保留在本地,由NVIDIA DGX Spark上的Nemotron模型完成推理处理;普通常识性问题,则可以被路由到云端API以获得更强的通用能力。
在NemoClaw + OpenShell的协同下,NVIDIA DGX Spark进一步为企业明确了Agent在内部系统中的运行方式。
而这套架构,本质上是在为“永远在线”的企业级AI系统,建立的一套可治理的基础设施。
05 从按Token付费到本地“买断”,DGX Spark助企业重算“经济账”
从企业应用角度看, NVIDIA DGX Spark本质上也正在改变企业使用AI算力的经济模型。
在传统云端大模型时代,企业获取算力更像是“计件工资”——通过API调用模型,并按消耗的Token数量付费。在早期的线性交互场景中,这种模式尚可接受。但进入Agent时代后,情况发生了变化。
当企业部署具备“长周期思考(Long-thinking)”能力的自主Agent时,如果这些计算全部依赖云端API,即使模型价格较低,长期累积的Token费用(OpEx)也会变得十分高昂且难以控制。
而拥有一台NVIDIA DGX Spark,就相当于买断了一台可以24小时持续生成Token的机器。”
当企业在NVIDIA DGX Spark本地部署模型后,原本持续增长的运营支出(OpEx)就转化为一次性的资本支出(CapEx)。运行Nemotron 120B、Mistral Small、DeepSeek V3、Qwen 3等开源模型的每一次推理产生的Token,其边际成本都接近于零。
从企业级IT架构角度看,DGX Spark的另一层意义在于统一环境。其实,企业最担心的是AI开发环境与数据中心、服务器的部署环境不一致,导致系统需要重新优化架构。为此,NVIDIA将完整AI软件栈直接预装在 NVIDIA DGX Spark上,包括 CUDA、Docker、Anaconda、vLLM、Ollama 等常用工具链。
同时,DGX Spark还获得了NVIDIA AI Enterprise的企业级支持,使IT部门可以像管理数据中心服务器一样统一部署和管理设备。
这表明,企业可以在DGX Spark上完成Agent的开发和验证,再将同一环境直接迁移到数据中心的大规模GPU集群运行,实现真正的——在工位创造智能,在数据中心释放智能。
06 写在最后
当AI从云端被调用的模型,演变为能够持续感知、持续规划、持续执行的系统性智能体,算力的存在方式也会随之改变。随着Agent进入真实业务流程,算力开始重新贴近数据、权限、执行现场。
面对自主智能体(Agent)带来的高并发、长上下文、隐私安全、巨额Token成本等痛点,NVIDIA用GB10的算力密度、200Gbps CX7的网络拓扑,以及NemoClaw的软件护城河,开启了新的蓝海市场。
凭借完整的算力体系、低功耗的设计,以及能够随业务规模逐步扩展的部署方式,NVIDIA DGX Spark甚至可以被视为“微缩版的AI 工厂”。对于希望将 Agentic AI深度融入业务流程、同时又对公有云数据安全和API成本有所顾虑的企业来说,在本地部署由多台NVIDIA DGX Spark组成的小型算力集群,正在成为越来越现实的选择。