🚀 Kimi K2:開放式智能代理模型
Kimi K2是一款先進的混合專家(MoE)語言模型,具備320億激活參數和1萬億總參數。它採用Muon優化器進行訓練,在前沿知識、推理和編碼任務中表現卓越,同時針對智能代理能力進行了精心優化。
重要提示
⚠️ 重要提示
本模型包含我們的聊天模板修復!對於llama.cpp
,請使用--jinja
快速訪問鏈接
📰 技術博客 | 📄 論文鏈接(即將推出)
✨ 主要特性
模型簡介
Kimi K2是一款最先進的混合專家(MoE)語言模型,擁有320億激活參數和1萬億總參數。通過Muon優化器進行訓練,Kimi K2在前沿知識、推理和編碼任務中表現出色,同時針對智能代理能力進行了精心優化。
關鍵特性
- 大規模訓練:在15.5萬億個標記上預訓練了一個1萬億參數的MoE模型,且訓練過程零不穩定。
- MuonClip優化器:我們將Muon優化器應用到了前所未有的規模,並開發了新的優化技術來解決擴展過程中的不穩定性問題。
- 智能代理能力:專門為工具使用、推理和自主問題解決而設計。
模型變體
- Kimi-K2-Base:基礎模型,為希望完全控制微調過程和自定義解決方案的研究人員和開發者提供了強大的起點。
- Kimi-K2-Instruct:後訓練模型,最適合直接使用、通用聊天和智能代理體驗。它是一個無需長時間思考的反射級模型。
📚 詳細文檔
模型概述
屬性 |
詳情 |
架構 |
混合專家(MoE) |
總參數 |
1萬億 |
激活參數 |
320億 |
層數(包括密集層) |
61 |
密集層數量 |
1 |
注意力隱藏維度 |
7168 |
MoE隱藏維度(每個專家) |
2048 |
注意力頭數量 |
64 |
專家數量 |
384 |
每個標記選擇的專家數量 |
8 |
共享專家數量 |
1 |
詞彙表大小 |
160K |
上下文長度 |
128K |
注意力機制 |
MLA |
激活函數 |
SwiGLU |
評估結果
指令模型評估結果
基準測試 |
指標 |
Kimi K2 Instruct |
DeepSeek-V3-0324 |
Qwen3-235B-A22B (非思考) |
Claude Sonnet 4 (無擴展思考) |
Claude Opus 4 (無擴展思考) |
GPT-4.1 |
Gemini 2.5 Flash 預覽版 (05-20) |
編碼任務 |
LiveCodeBench v6 (2024年8月 - 2025年5月) |
Pass@1 |
53.7 |
46.9 |
37.0 |
48.5 |
47.4 |
44.7 |
44.7 |
OJBench |
Pass@1 |
27.1 |
24.0 |
11.3 |
15.3 |
19.6 |
19.5 |
19.5 |
MultiPL-E |
Pass@1 |
85.7 |
83.1 |
78.2 |
88.6 |
89.6 |
86.7 |
85.6 |
SWE-bench Verified (無代理編碼) |
無測試單補丁(準確率) |
51.8 |
36.6 |
39.4 |
50.2 |
53.0 |
40.8 |
32.6 |
SWE-bench Verified (智能代理編碼) |
單次嘗試(準確率) |
65.8 |
38.8 |
34.4 |
72.7* |
72.5* |
54.6 |
— |
多次嘗試(準確率) |
71.6 |
— |
— |
80.2 |
79.4* |
— |
— |
SWE-bench Multilingual (智能代理編碼) |
單次嘗試(準確率) |
47.3 |
25.8 |
20.9 |
51.0 |
— |
31.5 |
— |
TerminalBench |
內部框架(準確率) |
30.0 |
— |
— |
35.5 |
43.2 |
8.3 |
— |
Terminus(準確率) |
25.0 |
16.3 |
6.6 |
— |
— |
30.3 |
16.8 |
Aider-Polyglot |
準確率 |
60.0 |
55.1 |
61.8 |
56.4 |
70.7 |
52.4 |
44.0 |
工具使用任務 |
Tau2 retail |
Avg@4 |
70.6 |
69.1 |
57.0 |
75.0 |
81.8 |
74.8 |
64.3 |
Tau2 airline |
Avg@4 |
56.5 |
39.0 |
26.5 |
55.5 |
60.0 |
54.5 |
42.5 |
Tau2 telecom |
Avg@4 |
65.8 |
32.5 |
22.1 |
45.2 |
57.0 |
38.6 |
16.9 |
AceBench |
準確率 |
76.5 |
72.7 |
70.5 |
76.2 |
75.6 |
80.1 |
74.5 |
數學與STEM任務 |
AIME 2024 |
Avg@64 |
69.6 |
59.4* |
40.1* |
43.4 |
48.2 |
46.5 |
61.3 |
AIME 2025 |
Avg@64 |
49.5 |
46.7 |
24.7* |
33.1* |
33.9* |
37.0 |
46.6 |
MATH-500 |
準確率 |
97.4 |
94.0* |
91.2* |
94.0 |
94.4 |
92.4 |
95.4 |
HMMT 2025 |
Avg@32 |
38.8 |
27.5 |
11.9 |
15.9 |
15.9 |
19.4 |
34.7 |
CNMO 2024 |
Avg@16 |
74.3 |
74.7 |
48.6 |
60.4 |
57.6 |
56.6 |
75.0 |
PolyMath-en |
Avg@4 |
65.1 |
59.5 |
51.9 |
52.8 |
49.8 |
54.0 |
49.9 |
ZebraLogic |
準確率 |
89.0 |
84.0 |
37.7* |
73.7 |
59.3 |
58.5 |
57.9 |
AutoLogi |
準確率 |
89.5 |
88.9 |
83.3 |
89.8 |
86.1 |
88.2 |
84.1 |
GPQA-Diamond |
Avg@8 |
75.1 |
68.4* |
62.9* |
70.0* |
74.9* |
66.3 |
68.2 |
SuperGPQA |
準確率 |
57.2 |
53.7 |
50.2 |
55.7 |
56.5 |
50.8 |
49.6 |
Humanity's Last Exam (僅文本) |
- |
4.7 |
5.2 |
5.7 |
5.8 |
7.1 |
3.7 |
5.6 |
通用任務 |
MMLU |
精確匹配 |
89.5 |
89.4 |
87.0 |
91.5 |
92.9 |
90.4 |
90.1 |
MMLU-Redux |
精確匹配 |
92.7 |
90.5 |
89.2 |
93.6 |
94.2 |
92.4 |
90.6 |
MMLU-Pro |
精確匹配 |
81.1 |
81.2* |
77.3 |
83.7 |
86.6 |
81.8 |
79.4 |
IFEval |
嚴格提示 |
89.8 |
81.1 |
83.2* |
87.6 |
87.4 |
88.0 |
84.3 |
Multi-Challenge |
準確率 |
54.1 |
31.4 |
34.0 |
46.8 |
49.0 |
36.4 |
39.5 |
SimpleQA |
正確 |
31.0 |
27.7 |
13.2 |
15.9 |
22.8 |
42.3 |
23.3 |
Livebench |
Pass@1 |
76.4 |
72.4 |
67.6 |
74.8 |
74.6 |
69.8 |
67.8 |
• 加粗表示全球最優,下劃線表示開源最優。
• 標記有 * 的數據點直接取自模型的技術報告或博客。
• 除SWE-bench Verified(無代理)外,所有指標均在8k輸出標記長度下進行評估。SWE-bench Verified(無代理)的輸出標記長度限制為16k。
• Kimi K2在使用bash/編輯器工具的SWE-bench Verified測試中(單次嘗試補丁,無測試時計算)達到了65.8%的Pass@1。在相同條件下,它在SWE-bench Multilingual測試中也達到了47.3%的Pass@1。此外,我們還報告了利用並行測試時計算的SWE-bench Verified測試結果(71.6%),通過採樣多個序列並通過內部評分模型選擇單個最佳序列。
• 為確保評估的穩定性,我們在AIME、HMMT、CNMO、PolyMath-en、GPQA-Diamond、EvalPlus、Tau2上採用了avg@k。
• 由於評估成本過高,部分數據點已被省略。
基礎模型評估結果
基準測試 |
指標 |
樣本數 |
Kimi K2 Base |
Deepseek-V3-Base |
Qwen2.5-72B |
Llama 4 Maverick |
通用任務 |
MMLU |
精確匹配 |
5樣本 |
87.8 |
87.1 |
86.1 |
84.9 |
MMLU-pro |
精確匹配 |
5樣本 |
69.2 |
60.6 |
62.8 |
63.5 |
MMLU-redux-2.0 |
精確匹配 |
5樣本 |
90.2 |
89.5 |
87.8 |
88.2 |
SimpleQA |
正確 |
5樣本 |
35.3 |
26.5 |
10.3 |
23.7 |
TriviaQA |
精確匹配 |
5樣本 |
85.1 |
84.1 |
76.0 |
79.3 |
GPQA-Diamond |
Avg@8 |
5樣本 |
48.1 |
50.5 |
40.8 |
49.4 |
SuperGPQA |
精確匹配 |
5樣本 |
44.7 |
39.2 |
34.2 |
38.8 |
編碼任務 |
LiveCodeBench v6 |
Pass@1 |
1樣本 |
26.3 |
22.9 |
21.1 |
25.1 |
EvalPlus |
Pass@1 |
- |
80.3 |
6 |
📄 許可證
本模型採用修改後的MIT許可證。具體信息請參考許可證文件。