Moonshot AI推出Kimi K2.6：专为长时间运行代理设计的开源模型

文章来源：企鹅号 - ZAKER财经

当前，大多数编排框架的设计初衷是支持运行几秒到几分钟的代理任务。然而，随着代理技术的进步，部分代理已经能够连续运行数小时甚至数天，这暴露了现有框架在长时间任务中的不足。

尽管像Anthropic的Claude Code和OpenAI的Codex等模型通过多会话任务、子代理和后台执行初步支持了长时间运行代理，但这些系统仍存在局限性，往往假设代理会在有限时间内完成工作流。

在此背景下，开源模型提供商Moonshot AI推出了其新模型Kimi K2.6，旨在突破这一限制。

Moonshot表示，Kimi K2.6专为持续执行而设计，内部测试案例显示，该模型能够支持运行数小时甚至连续五天的代理任务，自主处理监控、事件响应等复杂操作。

然而，这种长时间运行代理的普及也揭示了一个关键问题：大多数编排框架并未针对持续、有状态的任务进行优化。Kimi K2.6通过改进版的Agent Swarms方法管理多达300个子代理，并能“同时执行跨越4,000个协调步骤”，相比Claude Code和Codex更依赖模型而非预定义角色。

Kimi K2.6现已上线Hugging Face，并可通过API、Kimi Code及Kimi应用获取。

实践者指出，长时间运行代理的核心挑战远超提示工程所能解决的范畴。例如，开发者Maxim Saplin在其博客中提到：“问题根源在于编排本身的脆弱性，这是产品设计与训练方法的问题，而非单纯依靠严格提示就能解决。”

此外，长时间运行代理还面临状态维持难题，尤其是在环境动态变化的情况下。ArmorCode首席产品官Mark Lambert指出，治理能力已落后于部署速度，“这些代理系统生成代码和变更的速度超过了大多数组织审查、修复或治理的能力。”

F5首席产品官Kunal Anand则认为，长时间运行代理代表了一种比当前企业准备应对的更大的架构转变，“我们正从脚本、服务、容器、函数转向将代理作为持久基础设施，这催生了许多尚未命名的新类别。”

Moonshot AI强调，Kimi K2.6的目标是应对“通常需要数周或数月集体人类努力才能完成的真实世界挑战”。据技术文档披露，该模型在10小时内从零构建了一个完整的SysY编译器，相当于四名工程师两个月的工作量，并通过了所有140项功能测试。

团队还将K2.6应用于复杂工程任务，例如对一个已有八年历史的开源金融匹配引擎进行全面改造。一次13小时的执行过程显示，模型迭代了12种优化策略，发起了超过1,000次工具调用，精确修改了超过4,000行代码。

更令人印象深刻的是，Moonshot团队利用K2.6构建了一个自主运行五天的代理，负责管理监控、事件响应和系统操作。

来源：布谷财经

相关快讯