🚀 Kimi K2:开放代理智能模型
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数。它采用 Muon 优化器进行训练,在前沿知识、推理和编码任务中表现卓越,并且针对代理能力进行了精心优化。
🚀 快速开始
你可以通过以下链接快速体验和了解 Kimi K2:
✨ 主要特性
- 大规模训练:在 15.5T 令牌上预训练了一个 1T 参数的 MoE 模型,且训练过程零不稳定。
- MuonClip 优化器:将 Muon 优化器应用于前所未有的规模,并开发了新的优化技术来解决扩展过程中的不稳定性问题。
- 代理智能:专门为工具使用、推理和自主问题解决而设计。
📦 模型变体
- Kimi - K2 - Base:基础模型,为希望完全控制微调过程和定制解决方案的研究人员和开发者提供了强大的起点。
- Kimi - K2 - Instruct:经过后训练的模型,最适合直接使用的通用聊天和代理体验。它是一种反应级模型,无需长时间思考。
📚 详细文档
模型概述
属性 |
详情 |
架构类型 |
混合专家(MoE) |
总参数数量 |
1T |
激活参数数量 |
32B |
层数(包含密集层) |
61 |
密集层数量 |
1 |
注意力隐藏维度 |
7168 |
MoE 隐藏维度(每个专家) |
2048 |
注意力头数量 |
64 |
专家数量 |
384 |
每个令牌选择的专家数量 |
8 |
共享专家数量 |
1 |
词汇表大小 |
160K |
上下文长度 |
128K |
注意力机制 |
MLA |
激活函数 |
SwiGLU |
评估结果
指令模型评估结果
基准测试 |
指标 |
Kimi K2 Instruct |
DeepSeek - V3 - 0324 |
Qwen3 - 235B - A22B (non - thinking) |
Claude Sonnet 4 (w/o extended thinking) |
Claude Opus 4 (w/o extended thinking) |
GPT - 4.1 |
Gemini 2.5 Flash Preview (05 - 20) |
编码任务 |
|
|
|
|
|
|
|
|
LiveCodeBench v6 (Aug 24 - May 25) |
Pass@1 |
53.7 |
46.9 |
37.0 |
48.5 |
47.4 |
44.7 |
44.7 |
OJBench |
Pass@1 |
27.1 |
24.0 |
11.3 |
15.3 |
19.6 |
19.5 |
19.5 |
MultiPL - E |
Pass@1 |
85.7 |
83.1 |
78.2 |
88.6 |
89.6 |
86.7 |
85.6 |
SWE - bench Verified (Agentless Coding) |
Single Patch w/o Test (Acc) |
51.8 |
36.6 |
39.4 |
50.2 |
53.0 |
40.8 |
32.6 |
SWE - bench Verified (Agentic Coding) (Single Attempt) |
Single Attempt (Acc) |
65.8 |
38.8 |
34.4 |
72.7* |
72.5* |
54.6 |
— |
SWE - bench Verified (Agentic Coding) (Multiple Attempts) |
Multiple Attempts (Acc) |
71.6 |
— |
— |
80.2 |
79.4* |
— |
— |
SWE - bench Multilingual (Agentic Coding) |
Single Attempt (Acc) |
47.3 |
25.8 |
20.9 |
51.0 |
— |
31.5 |
— |
TerminalBench (Inhouse Framework) |
Inhouse Framework (Acc) |
30.0 |
— |
— |
35.5 |
43.2 |
8.3 |
— |
TerminalBench (Terminus) |
Terminus (Acc) |
25.0 |
16.3 |
6.6 |
— |
— |
30.3 |
16.8 |
Aider - Polyglot |
Acc |
60.0 |
55.1 |
61.8 |
56.4 |
70.7 |
52.4 |
44.0 |
工具使用任务 |
|
|
|
|
|
|
|
|
Tau2 retail |
Avg@4 |
70.6 |
69.1 |
57.0 |
75.0 |
81.8 |
74.8 |
64.3 |
Tau2 airline |
Avg@4 |
56.5 |
39.0 |
26.5 |
55.5 |
60.0 |
54.5 |
42.5 |
Tau2 telecom |
Avg@4 |
65.8 |
32.5 |
22.1 |
45.2 |
57.0 |
38.6 |
16.9 |
AceBench |
Acc |
76.5 |
72.7 |
70.5 |
76.2 |
75.6 |
80.1 |
74.5 |
数学与 STEM 任务 |
|
|
|
|
|
|
|
|
AIME 2024 |
Avg@64 |
69.6 |
59.4* |
40.1* |
43.4 |
48.2 |
46.5 |
61.3 |
AIME 2025 |
Avg@64 |
49.5 |
46.7 |
24.7* |
33.1* |
33.9* |
37.0 |
46.6 |
MATH - 500 |
Acc |
97.4 |
94.0* |
91.2* |
94.0 |
94.4 |
92.4 |
95.4 |
HMMT 2025 |
Avg@32 |
38.8 |
27.5 |
11.9 |
15.9 |
15.9 |
19.4 |
34.7 |
CNMO 2024 |
Avg@16 |
74.3 |
74.7 |
48.6 |
60.4 |
57.6 |
56.6 |
75.0 |
PolyMath - en |
Avg@4 |
65.1 |
59.5 |
51.9 |
52.8 |
49.8 |
54.0 |
49.9 |
ZebraLogic |
Acc |
89.0 |
84.0 |
37.7* |
73.7 |
59.3 |
58.5 |
57.9 |
AutoLogi |
Acc |
89.5 |
88.9 |
83.3 |
89.8 |
86.1 |
88.2 |
84.1 |
GPQA - Diamond |
Avg@8 |
75.1 |
68.4* |
62.9* |
70.0* |
74.9* |
66.3 |
68.2 |
SuperGPQA |
Acc |
57.2 |
53.7 |
50.2 |
55.7 |
56.5 |
50.8 |
49.6 |
Humanity's Last Exam (Text Only) |
- |
4.7 |
5.2 |
5.7 |
5.8 |
7.1 |
3.7 |
5.6 |
通用任务 |
|
|
|
|
|
|
|
|
MMLU |
EM |
89.5 |
89.4 |
87.0 |
91.5 |
92.9 |
90.4 |
90.1 |
MMLU - Redux |
EM |
92.7 |
90.5 |
89.2 |
93.6 |
94.2 |
92.4 |
90.6 |
MMLU - Pro |
EM |
81.1 |
81.2* |
77.3 |
83.7 |
86.6 |
81.8 |
79.4 |
IFEval |
Prompt Strict |
89.8 |
81.1 |
83.2* |
87.6 |
87.4 |
88.0 |
84.3 |
Multi - Challenge |
Acc |
54.1 |
31.4 |
34.0 |
46.8 |
49.0 |
36.4 |
39.5 |
SimpleQA |
Correct |
31.0 |
27.7 |
13.2 |
15.9 |
22.8 |
42.3 |
23.3 |
Livebench |
Pass@1 |
76.4 |
72.4 |
67.6 |
74.8 |
74.6 |
69.8 |
67.8 |
• 加粗表示全球最优,下划线表示开源最优。
• 标记 * 的数据点直接取自模型的技术报告或博客。
• 除 SWE - bench Verified (Agentless) 外,所有指标均以 8k 输出令牌长度进行评估。SWE - bench Verified (Agentless) 限制为 16k 输出令牌长度。
• Kimi K2 在使用 bash/editor 工具的 SWE - bench Verified 测试中(单尝试补丁,无测试时计算)达到 65.8% 的通过率(Pass@1)。在相同条件下,它在 SWE - bench Multilingual 测试中也达到了 47.3% 的通过率(Pass@1)。此外,我们还报告了利用并行测试时计算的 SWE - bench Verified 测试结果(71.6%),通过采样多个序列并通过内部评分模型选择单个最佳序列。
• 为确保评估的稳定性,我们在 AIME、HMMT、CNMO、PolyMath - en、GPQA - Diamond、EvalPlus、Tau2 上采用了 avg@k。
• 由于评估成本过高,部分数据点已省略。
基础模型评估结果
基准测试 |
指标 |
样本 |
Kimi K2 Base |
Deepseek - V3 - Base |
Qwen2.5 - 72B |
Llama 4 Maverick |
通用任务 |
|
|
|
|
|
|
MMLU |
EM |
5 - shot |
87.8 |
87.1 |
86.1 |
84.9 |
MMLU - pro |
EM |
5 - shot |
69.2 |
60.6 |
62.8 |
63.5 |
MMLU - redux - 2.0 |
EM |
5 - shot |
90.2 |
89.5 |
87.8 |
88.2 |
SimpleQA |
Correct |
5 - shot |
35.3 |
26.5 |
10.3 |
23.7 |
TriviaQA |
EM |
5 - shot |
85.1 |
84.1 |
76.0 |
79.3 |
GPQA - Diamond |
Avg@8 |
5 - shot |
48.1 |
50.5 |
40.8 |
49.4 |
SuperGPQA |
EM |
5 - shot |
44.7 |
39.2 |
34.2 |
38.8 |
编码任务 |
|
|
|
|
|
|
LiveCodeBench v6 |
Pass@1 |
1 - shot |
26.3 |
22.9 |
21.1 |
25.1 |
EvalPlus |
Pass@1 |
- |
80.3 |
65.6 |
66.0 |
65.5 |
数学任务 |
|
|
|
|
|
|
MATH |
EM |
4 - shot |
70.2 |
60.1 |
61.0 |
63.0 |
GSM8k |
EM |
8 - shot |
92.1 |
91.7 |
90.4 |
86.3 |
中文任务 |
|
|
|
|
|
|
C - Eval |
EM |
5 - shot |
92.5 |
90.0 |
90.9 |
80.9 |
CSimpleQA |
Correct |
5 - shot |
77.6 |
|
|
|
📄 许可证
本项目采用修改后的 MIT 许可证,详情请见 LICENSE。