🚀 Kimi K2:开放式智能代理模型
Kimi K2是一款先进的混合专家(MoE)语言模型,具备320亿激活参数和1万亿总参数。它采用Muon优化器进行训练,在前沿知识、推理和编码任务中表现卓越,同时针对智能代理能力进行了精心优化。
重要提示
⚠️ 重要提示
本模型包含我们的聊天模板修复!对于llama.cpp
,请使用--jinja
快速访问链接
📰 技术博客 | 📄 论文链接(即将推出)
✨ 主要特性
模型简介
Kimi K2是一款最先进的混合专家(MoE)语言模型,拥有320亿激活参数和1万亿总参数。通过Muon优化器进行训练,Kimi K2在前沿知识、推理和编码任务中表现出色,同时针对智能代理能力进行了精心优化。
关键特性
- 大规模训练:在15.5万亿个标记上预训练了一个1万亿参数的MoE模型,且训练过程零不稳定。
- MuonClip优化器:我们将Muon优化器应用到了前所未有的规模,并开发了新的优化技术来解决扩展过程中的不稳定性问题。
- 智能代理能力:专门为工具使用、推理和自主问题解决而设计。
模型变体
- Kimi-K2-Base:基础模型,为希望完全控制微调过程和自定义解决方案的研究人员和开发者提供了强大的起点。
- Kimi-K2-Instruct:后训练模型,最适合直接使用、通用聊天和智能代理体验。它是一个无需长时间思考的反射级模型。
📚 详细文档
模型概述
属性 |
详情 |
架构 |
混合专家(MoE) |
总参数 |
1万亿 |
激活参数 |
320亿 |
层数(包括密集层) |
61 |
密集层数量 |
1 |
注意力隐藏维度 |
7168 |
MoE隐藏维度(每个专家) |
2048 |
注意力头数量 |
64 |
专家数量 |
384 |
每个标记选择的专家数量 |
8 |
共享专家数量 |
1 |
词汇表大小 |
160K |
上下文长度 |
128K |
注意力机制 |
MLA |
激活函数 |
SwiGLU |
评估结果
指令模型评估结果
基准测试 |
指标 |
Kimi K2 Instruct |
DeepSeek-V3-0324 |
Qwen3-235B-A22B (非思考) |
Claude Sonnet 4 (无扩展思考) |
Claude Opus 4 (无扩展思考) |
GPT-4.1 |
Gemini 2.5 Flash 预览版 (05-20) |
编码任务 |
LiveCodeBench v6 (2024年8月 - 2025年5月) |
Pass@1 |
53.7 |
46.9 |
37.0 |
48.5 |
47.4 |
44.7 |
44.7 |
OJBench |
Pass@1 |
27.1 |
24.0 |
11.3 |
15.3 |
19.6 |
19.5 |
19.5 |
MultiPL-E |
Pass@1 |
85.7 |
83.1 |
78.2 |
88.6 |
89.6 |
86.7 |
85.6 |
SWE-bench Verified (无代理编码) |
无测试单补丁(准确率) |
51.8 |
36.6 |
39.4 |
50.2 |
53.0 |
40.8 |
32.6 |
SWE-bench Verified (智能代理编码) |
单次尝试(准确率) |
65.8 |
38.8 |
34.4 |
72.7* |
72.5* |
54.6 |
— |
多次尝试(准确率) |
71.6 |
— |
— |
80.2 |
79.4* |
— |
— |
SWE-bench Multilingual (智能代理编码) |
单次尝试(准确率) |
47.3 |
25.8 |
20.9 |
51.0 |
— |
31.5 |
— |
TerminalBench |
内部框架(准确率) |
30.0 |
— |
— |
35.5 |
43.2 |
8.3 |
— |
Terminus(准确率) |
25.0 |
16.3 |
6.6 |
— |
— |
30.3 |
16.8 |
Aider-Polyglot |
准确率 |
60.0 |
55.1 |
61.8 |
56.4 |
70.7 |
52.4 |
44.0 |
工具使用任务 |
Tau2 retail |
Avg@4 |
70.6 |
69.1 |
57.0 |
75.0 |
81.8 |
74.8 |
64.3 |
Tau2 airline |
Avg@4 |
56.5 |
39.0 |
26.5 |
55.5 |
60.0 |
54.5 |
42.5 |
Tau2 telecom |
Avg@4 |
65.8 |
32.5 |
22.1 |
45.2 |
57.0 |
38.6 |
16.9 |
AceBench |
准确率 |
76.5 |
72.7 |
70.5 |
76.2 |
75.6 |
80.1 |
74.5 |
数学与STEM任务 |
AIME 2024 |
Avg@64 |
69.6 |
59.4* |
40.1* |
43.4 |
48.2 |
46.5 |
61.3 |
AIME 2025 |
Avg@64 |
49.5 |
46.7 |
24.7* |
33.1* |
33.9* |
37.0 |
46.6 |
MATH-500 |
准确率 |
97.4 |
94.0* |
91.2* |
94.0 |
94.4 |
92.4 |
95.4 |
HMMT 2025 |
Avg@32 |
38.8 |
27.5 |
11.9 |
15.9 |
15.9 |
19.4 |
34.7 |
CNMO 2024 |
Avg@16 |
74.3 |
74.7 |
48.6 |
60.4 |
57.6 |
56.6 |
75.0 |
PolyMath-en |
Avg@4 |
65.1 |
59.5 |
51.9 |
52.8 |
49.8 |
54.0 |
49.9 |
ZebraLogic |
准确率 |
89.0 |
84.0 |
37.7* |
73.7 |
59.3 |
58.5 |
57.9 |
AutoLogi |
准确率 |
89.5 |
88.9 |
83.3 |
89.8 |
86.1 |
88.2 |
84.1 |
GPQA-Diamond |
Avg@8 |
75.1 |
68.4* |
62.9* |
70.0* |
74.9* |
66.3 |
68.2 |
SuperGPQA |
准确率 |
57.2 |
53.7 |
50.2 |
55.7 |
56.5 |
50.8 |
49.6 |
Humanity's Last Exam (仅文本) |
- |
4.7 |
5.2 |
5.7 |
5.8 |
7.1 |
3.7 |
5.6 |
通用任务 |
MMLU |
精确匹配 |
89.5 |
89.4 |
87.0 |
91.5 |
92.9 |
90.4 |
90.1 |
MMLU-Redux |
精确匹配 |
92.7 |
90.5 |
89.2 |
93.6 |
94.2 |
92.4 |
90.6 |
MMLU-Pro |
精确匹配 |
81.1 |
81.2* |
77.3 |
83.7 |
86.6 |
81.8 |
79.4 |
IFEval |
严格提示 |
89.8 |
81.1 |
83.2* |
87.6 |
87.4 |
88.0 |
84.3 |
Multi-Challenge |
准确率 |
54.1 |
31.4 |
34.0 |
46.8 |
49.0 |
36.4 |
39.5 |
SimpleQA |
正确 |
31.0 |
27.7 |
13.2 |
15.9 |
22.8 |
42.3 |
23.3 |
Livebench |
Pass@1 |
76.4 |
72.4 |
67.6 |
74.8 |
74.6 |
69.8 |
67.8 |
• 加粗表示全球最优,下划线表示开源最优。
• 标记有 * 的数据点直接取自模型的技术报告或博客。
• 除SWE-bench Verified(无代理)外,所有指标均在8k输出标记长度下进行评估。SWE-bench Verified(无代理)的输出标记长度限制为16k。
• Kimi K2在使用bash/编辑器工具的SWE-bench Verified测试中(单次尝试补丁,无测试时计算)达到了65.8%的Pass@1。在相同条件下,它在SWE-bench Multilingual测试中也达到了47.3%的Pass@1。此外,我们还报告了利用并行测试时计算的SWE-bench Verified测试结果(71.6%),通过采样多个序列并通过内部评分模型选择单个最佳序列。
• 为确保评估的稳定性,我们在AIME、HMMT、CNMO、PolyMath-en、GPQA-Diamond、EvalPlus、Tau2上采用了avg@k。
• 由于评估成本过高,部分数据点已被省略。
基础模型评估结果
基准测试 |
指标 |
样本数 |
Kimi K2 Base |
Deepseek-V3-Base |
Qwen2.5-72B |
Llama 4 Maverick |
通用任务 |
MMLU |
精确匹配 |
5样本 |
87.8 |
87.1 |
86.1 |
84.9 |
MMLU-pro |
精确匹配 |
5样本 |
69.2 |
60.6 |
62.8 |
63.5 |
MMLU-redux-2.0 |
精确匹配 |
5样本 |
90.2 |
89.5 |
87.8 |
88.2 |
SimpleQA |
正确 |
5样本 |
35.3 |
26.5 |
10.3 |
23.7 |
TriviaQA |
精确匹配 |
5样本 |
85.1 |
84.1 |
76.0 |
79.3 |
GPQA-Diamond |
Avg@8 |
5样本 |
48.1 |
50.5 |
40.8 |
49.4 |
SuperGPQA |
精确匹配 |
5样本 |
44.7 |
39.2 |
34.2 |
38.8 |
编码任务 |
LiveCodeBench v6 |
Pass@1 |
1样本 |
26.3 |
22.9 |
21.1 |
25.1 |
EvalPlus |
Pass@1 |
- |
80.3 |
6 |
📄 许可证
本模型采用修改后的MIT许可证。具体信息请参考许可证文件。