当前,大多数编排框架的设计初衷是支持运行几秒到几分钟的代理任务。然而,随着代理技术的进步,部分代理已经能够连续运行数小时甚至数天,这暴露了现有框架在长时间任务中的不足。
尽管像Anthropic的Claude Code和OpenAI的Codex等模型通过多会话任务、子代理和后台执行初步支持了长时间运行代理,但这些系统仍存在局限性,往往假设代理会在有限时间内完成工作流。
在此背景下,开源模型提供商Moonshot AI推出了其新模型Kimi K2.6,旨在突破这一限制。
Moonshot表示,Kimi K2.6专为持续执行而设计,内部测试案例显示,该模型能够支持运行数小时甚至连续五天的代理任务,自主处理监控、事件响应等复杂操作。
然而,这种长时间运行代理的普及也揭示了一个关键问题:大多数编排框架并未针对持续、有状态的任务进行优化。Kimi K2.6通过改进版的Agent Swarms方法管理多达300个子代理,并能“同时执行跨越4,000个协调步骤”,相比Claude Code和Codex更依赖模型而非预定义角色。
Kimi K2.6现已上线Hugging Face,并可通过API、Kimi Code及Kimi应用获取。
实践者指出,长时间运行代理的核心挑战远超提示工程所能解决的范畴。例如,开发者Maxim Saplin在其博客中提到:“问题根源在于编排本身的脆弱性,这是产品设计与训练方法的问题,而非单纯依靠严格提示就能解决。”
此外,长时间运行代理还面临状态维持难题,尤其是在环境动态变化的情况下。ArmorCode首席产品官Mark Lambert指出,治理能力已落后于部署速度,“这些代理系统生成代码和变更的速度超过了大多数组织审查、修复或治理的能力。”
F5首席产品官Kunal Anand则认为,长时间运行代理代表了一种比当前企业准备应对的更大的架构转变,“我们正从脚本、服务、容器、函数转向将代理作为持久基础设施,这催生了许多尚未命名的新类别。”
Moonshot AI强调,Kimi K2.6的目标是应对“通常需要数周或数月集体人类努力才能完成的真实世界挑战”。据技术文档披露,该模型在10小时内从零构建了一个完整的SysY编译器,相当于四名工程师两个月的工作量,并通过了所有140项功能测试。
团队还将K2.6应用于复杂工程任务,例如对一个已有八年历史的开源金融匹配引擎进行全面改造。一次13小时的执行过程显示,模型迭代了12种优化策略,发起了超过1,000次工具调用,精确修改了超过4,000行代码。
更令人印象深刻的是,Moonshot团队利用K2.6构建了一个自主运行五天的代理,负责管理监控、事件响应和系统操作。
来源:布谷财经