
一、KIMI K2 简介与核心理念
Kimi K2 是由月之暗面 (Moonshot AI) 推出的万亿参数级混合专家(MoE)大语言模型。
它不仅仅是一个模型,而是一个由两部分组成的完整系统: Kimi K2 Base (基础模型):一个拥有1.04万亿总参数的强大基础模型,通过创新的预训练技术构建。 Kimi K2 Thinking / Instruct (智能体):在基础模型之上,通过大规模智能体数据和强化学习训练出的“边思考边使用工具”的智能体。
传统LLM:主要进行静态学习和响应,如CoT(思维链)是在模型内部的逻辑展开。
Kimi K2 Thinking:其范式转变为“思考 → 行动 → 再思考”。模型不仅能学习,还能在复杂动态环境中自主地感知、规划、推理和行动。
这种设计使其能超越静态数据的限制,通过自身的探索和工具使用来获取新能力。

Kimi K2 延续并优化了 MoE 架构,其核心思想是通过激活一小部分“专家”网络来处理信息,从而在巨大模型规模下保持高效推理。
总参数量: 1.04万亿 (1.04T)。
激活参数量: 每个 token 推理时仅激活 320亿 (32B) 参数,实现了极高的计算效率。
专家系统 (MoE):
词汇表 (Vocabulary Size): 160k,更大的词汇表能更高效地编码多语言和专业术语,在处理长文本时减少 token 数量,节约成本。
上下文窗口 (Context Window): 支持高达 256k tokens,使其能够处理和记忆数百页的文档内容,为深度研究和长篇代码项目提供支持。
注意力机制 (Attention): 采用 MLA (Multi-head Latent Attention) 机制。
通过对比图中的 Kimi K2 和 DeepSeek R1,可以看出 Kimi K2 在多个关键维度上做出了独特的设计选择:

(左滑查看完整信息)
技术特征 | Kimi K2 Thinking | DeepSeek R1 (对比) | 设计意图分析 |
|---|---|---|---|
总参数量 | 1万亿 (1T) | 6710亿 (671B) | 追求更高的模型容量和性能上限。 |
词汇表大小 | 160k | 129k | 更大的词汇表可以更高效地编码多语言文本和特殊符号,减少 token 数量,从而在处理长文本时节省计算资源。 |
注意力头 (Heads) | 64 个 | 128 个 | 减少注意力头数量可以降低注意力计算的复杂度和显存占用,从而加快推理速度。这是一种在性能和效率间的权衡。 |
MoE 专家数量 | 384 个 | 256 个 | “更多、更细颗粒度专家” = 更强专业分工;本质上是在做“知识稀疏化 + 专业化”而不是简单 scale up |
激活参数量 | 32B | 37B | 激活参数才是推理时真正动的算力;32B 意味着跑起来成本比其 1T 字面数字更低 |
非 MoE 层数 | 第 1 个 block 使用标准 FFN | 前 3 个 block 使用标准 FFN | MoE 层通常在模型的中后部效果更好。Kimi K2 更早地引入 MoE 结构(从第 2 个 block 开始),将更多计算量分配给稀疏激活的专家网络,进一步优化资源利用。 |
上下文长度 | 训练末期 128k,推理支持 256k | 支持 128k tokens | 在预训练后期使用 YaRN 方法将上下文窗口扩展到 128k,并最终支持高达 256k 的上下文。 |
注意力机制 | (Multi-head Latent Attention) | 多头注意力 | MLA 不是“缩头数”,而是把 Attention 的显式 Q/K/V 计算拆成 latent 压缩空间 → 减 KV / KV cache 占用、减显存带宽,长上下文推理稳定性更高; |
训练万亿模型,核心挑战在于:如何在有限的高质量数据下提升词元效率 (Token-efficient),以及如何保证超大规模训练的稳定性 (Stability)。
在 Kimi K2 这样万亿参数规模 且在 15.5 万亿海量 Token 上进行预训练的工程中,训练稳定性是压倒一切的前提。一次训练崩溃(即“损失尖峰”)可能意味着数万美元的成本浪费和昂贵的训练回滚。
Kimi K2 团队在追求极致“词元效率” 时,遇到了一个致命的稳定性瓶颈,并为此设计了一套精妙的解决方案 (MuonClip)。
注意力 Logit 是在进行 Softmax 操作之前,Query (Q) 和 Key (K) 向量点积的结果。
在提出 QK-Clip 之前,K2 团队评估了两种已有的缓解策略,均不适用:
K2 团队提出了 QK-Clip,一种新颖的权重裁剪机制,其设计思想是从源头上控制 Logit 的增长。
核心思想:不干预 Logit,而是约束产生 Logit 的权重
最大 Logit ()
为了决定何时以及如何干预,QK-Clip 需要一个监控指标。这个指标就是每个注意力头 在当前批次 (batch) 中的最大 Logit 值,定义如下:
这个公式计算了单个注意力头在整个批次中所有 token 对之间点积的最大值。
干预机制:按需、按头的权重缩放
缩放因子计算:每个头独立计算其缩放因子
针对 MLA 架构的精细化应用
在 MLA 架构中,QK-Clip 精确地只对非共享的组件进行缩放,以避免跨头影响:
K2 团队将以下四个部分整合在一起,形成了一个完整的、稳定且高效的优化器,命名为 MuonClip:
效果立竿见影: 如图展示了 Kimi K2 在使用 MuonClip()训练时的最大 Logit 曲线。可以看到,在训练初期,Logit 值迅速增长并被精确地限制在 100。

自适应与自失效 (Self-Disabling):随着训练的进行(约 30% 之后),模型的权重逐渐调整到更稳定的状态,最大 Logit 值自然地回落到 100 以下。此时,QK-Clip 的触发条件不再满足 (),它就自动停止了干预。这体现了其“最小化干预”的设计哲学——只在需要时发挥作用。

最终结果:MuonClip 成功地使 Kimi K2 在 15.5 万亿 Tokens 的预训练过程中实现了“零损失尖峰 (zero loss spike)”,保证了万亿模型训练的稳定性和效率。
挑战:高质量人类数据日益稀缺。
K2 的方案:设计“数据改写 (Rephrasing)”流水线,在不过拟合的前提下,充分利用高质量数据,增加词元效用。
流程:

成果:实验证明,数据改写比简单地重复训练(多轮次)能带来更显著的性能提升。
K2 Base 是一个强大的基础模型,而 K2 Thinking 是通过一个精密的后训练 (Post-Training) 过程,将其进化为“智能体”。
K2 Thinking 核心理念: 端到端训练,使“函数调用 (API/工具)”成为模型推理流程中的一个原生动作。

目标:教会模型如何使用工具。
挑战:真实世界的工具使用数据难以大规模获取。
K2 的方案:大规模智能体数据合成流水线 这是一个三阶段系统,用以模拟真实世界的工具使用场景:

混合方法 (Hybrid Approach):为弥补模拟环境的真实性不足,团队在编码和软件工程等关键领域,将模拟与真实执行沙盒相结合,确保模型能从真实世界的反馈中学习。
目标:在 SFT 基础上,进一步提升模型的词元效率和泛化能力,特别是在主观偏好任务和复杂推理任务上。
K2 的方案:通用强化学习框架 K2 的 RL 框架包含两大类奖励机制:
RL 算法改进:
K2 不仅规模大,而且在设计之初就考虑了高效部署。
原生 INT4 量化:
架构的工程取舍:
K2 的高效并不仅仅依赖量化,更源于其在模型架构层面的精妙取舍。
K2 Thinking 的 Agentic 训练,使其在推理时(Test-Time)展现出独特的能力。
测试时扩展 (Test-Time Scaling):
超长任务执行 / 工具调用链:
• 智能体工具使用 (τ²-Bench, ACEBench):K2 在多轮工具使用基准上树立了新的标杆,大幅超越了所有基线模型。
• 智能体编程 (SWE-bench):在真实世界的软件工程任务上,K2 取得了开源模型的最佳性能,显著缩小了与 Claude 等专有模型的差距。
• 开放式评估 (LMSYS Arena):截至2025年7月17日,Kimi-K2-Instruct 在超过3000次真实用户盲测中,被评为排名第一的开源模型和总排名第五的模型。
• 长上下文与事实性 (FACTS Grounding):在事实性基准上大幅超越所有对手。
Reasoning Tasks(左滑查看完整信息)
Benchmark | Setting | K2 Thinking | GPT-5 (High) | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 | Grok-4 |
|---|---|---|---|---|---|---|---|
HLE (Text-only) | no tools | 23.9 | 26.3 | 19.8* | 7.9 | 19.8 | 25.4 |
w/ tools | 44.9 | 41.7* | 32.0* | 21.7 | 20.3* | 41.0 | |
heavy | 51.0 | 42.0 | - | - | - | 50.7 | |
AIME25 | no tools | 94.5 | 94.6 | 87.0 | 51.0 | 89.3 | 91.7 |
w/ python | 99.1 | 99.6 | 100.0 | 75.2 | 58.1* | 98.8 | |
heavy | 100.0 | 100.0 | - | - | - | 100.0 | |
HMMT25 | no tools | 89.4 | 93.3 | 74.6* | 38.8 | 83.6 | 90.0 |
w/ python | 95.1 | 96.7 | 88.8* | 70.4 | 49.5* | 93.9 | |
heavy | 97.5 | 100.0 | - | - | - | 96.7 | |
IMO-AnswerBench | no tools | 78.6 | 76.0* | 65.9* | 45.8 | 76.0* | 73.1 |
GPQA | no tools | 84.5 | 85.7 | 83.4 | 74.2 | 79.9 | 87.5 |
General Tasks(左滑查看完整信息)
Benchmark | Setting | K2 Thinking | GPT-5 (High) | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
MMLU-Pro | no tools | 84.6 | 87.1 | 87.5 | 81.9 | 85.0 |
MMLU-Redux | no tools | 94.4 | 95.3 | 95.6 | 92.7 | 93.7 |
Longform Writing | no tools | 73.8 | 71.4 | 79.8 | 62.8 | 72.5 |
HealthBench | no tools | 58.0 | 67.2 | 44.2 | 43.8 | 46.9 |
Agentic Search Tasks(左滑查看完整信息)
Benchmark | Setting | K2 Thinking | GPT-5 (High) | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
BrowseComp | w/ tools | 60.2 | 54.9 | 24.1 | 7.4 | 40.1 |
BrowseComp-ZH | w/ tools | 62.3 | 63.0* | 42.4* | 22.2 | 47.9 |
Seal-0 | w/ tools | 56.3 | 51.4* | 53.4* | 25.2 | 38.5* |
FinSearchComp-T3 | w/ tools | 47.4 | 48.5* | 44.0* | 10.4 | 27.0* |
Frames | w/ tools | 87.0 | 86.0* | 85.0* | 58.1 | 80.2* |
Coding Tasks(左滑查看完整信息)
Benchmark | Setting | K2 Thinking | GPT-5 (High) | Claude Sonnet 4.5 (Thinking) | K2 0905 | DeepSeek-V3.2 |
|---|---|---|---|---|---|---|
SWE-bench Verified | w/ tools | 71.3 | 74.9 | 77.2 | 69.2 | 67.8 |
SWE-bench Multilingual | w/ tools | 61.1 | 55.3* | 68.0 | 55.9 | 57.9 |
Multi-SWE-bench | w/ tools | 41.9 | 39.3* | 44.3 | 33.5 | 30.6 |
SciCode | no tools | 44.8 | 42.9 | 44.7 | 30.7 | 37.7 |
LiveCodeBenchV6 | no tools | 83.1 | 87.0* | 64.0* | 56.1* | 74.1 |
OJ-Bench (cpp) | no tools | 48.7 | 56.2* | 30.4* | 25.5* | 38.2* |
Terminal-Bench | w/ simulated tools (JSON) | 47.1 | 43.8 | 51.0 | 44.5 | 37.7 |
K2 Thinking 在“代理型任务”中展现强势:如“网页浏览+知识检索+工具使用+编程”组合任务。
案例来源 : https://moonshotai.github.io/Kimi-K2/thinking.html



Kimi K2 Thinking 不再是一个单纯的语言模型,而是一个功能强大、可开源部署的智能代理核心。
它通过 “MoE 架构 + Agentic 训练 + 原生量化” 的技术路线,成功地在模型规模、推理性能和运行效率之间取得了精妙的平衡。
• 架构:1T MoE、32B 激活、64个注意力头、160k 词表。
• 训练:MuonClip 优化器实现15.5T Tokens 零损失尖峰;Data Rephrasing 提升词元效率。
• 智能:大规模智能体数据合成;RLVR 与自评奖励相结合的 RL 框架。
• 部署:原生 INT4 QAT;支持200-300步的超长工具调用链。
Kimi K2 极大地推动了开源模型在复杂任务自动化领域的发展,将模型的能力从“对话”提升到了“行动”的层次。