🚀 Kimi K2:開放智能體語言模型
Kimi K2 是一款先進的混合專家(MoE)語言模型,擁有 320 億激活參數和 1 萬億總參數。它在前沿知識、推理和編碼任務中表現卓越,尤其針對智能體能力進行了精心優化。
🚀 快速開始
你可以通過以下鏈接快速瞭解和使用 Kimi K2:
✨ 主要特性
- 大規模訓練:在 15.5 萬億個標記上預訓練了 1 萬億參數的 MoE 模型,且訓練過程零不穩定。
- MuonClip 優化器:將 Muon 優化器應用於前所未有的規模,並開發了新的優化技術以解決擴展過程中的不穩定性。
- 智能體智能:專為工具使用、推理和自主問題解決而設計。
📦 模型變體
- Kimi-K2-Base:基礎模型,為希望完全控制微調過程和定製解決方案的研究人員和開發者提供了強大的起點。
- Kimi-K2-Instruct:經過後續訓練的模型,最適合直接使用的通用聊天和智能體體驗,是一種無需長時間思考的反射級模型。
📚 詳細文檔
模型概述
屬性 |
詳情 |
模型架構 |
混合專家(MoE) |
總參數數量 |
1 萬億 |
激活參數數量 |
320 億 |
層數(包括密集層) |
61 |
密集層數量 |
1 |
注意力隱藏維度 |
7168 |
MoE 隱藏維度(每個專家) |
2048 |
注意力頭數量 |
64 |
專家數量 |
384 |
每個標記選擇的專家數量 |
8 |
共享專家數量 |
1 |
詞彙表大小 |
160K |
上下文長度 |
128K |
注意力機制 |
MLA |
激活函數 |
SwiGLU |
評估結果
指令模型評估結果
基準測試 |
指標 |
Kimi K2 Instruct |
DeepSeek-V3-0324 |
Qwen3-235B-A22B (非思考模式) |
Claude Sonnet 4 (無擴展思考) |
Claude Opus 4 (無擴展思考) |
GPT-4.1 |
Gemini 2.5 Flash 預覽版 (05 - 20) |
編碼任務 |
|
|
|
|
|
|
|
|
LiveCodeBench v6 (2024 年 8 月 - 2025 年 5 月) |
Pass@1 |
53.7 |
46.9 |
37.0 |
48.5 |
47.4 |
44.7 |
44.7 |
OJBench |
Pass@1 |
27.1 |
24.0 |
11.3 |
15.3 |
19.6 |
19.5 |
19.5 |
MultiPL - E |
Pass@1 |
85.7 |
83.1 |
78.2 |
88.6 |
89.6 |
86.7 |
85.6 |
SWE - bench 驗證 (無智能體編碼) |
單補丁無測試 (準確率) |
51.8 |
36.6 |
39.4 |
50.2 |
53.0 |
40.8 |
32.6 |
SWE - bench 驗證 (智能體編碼) |
單次嘗試 (準確率) |
65.8 |
38.8 |
34.4 |
72.7* |
72.5* |
54.6 |
— |
SWE - bench 驗證 (智能體編碼) |
多次嘗試 (準確率) |
71.6 |
— |
— |
80.2 |
79.4* |
— |
— |
SWE - bench 多語言 (智能體編碼) |
單次嘗試 (準確率) |
47.3 |
25.8 |
20.9 |
51.0 |
— |
31.5 |
— |
TerminalBench |
內部框架 (準確率) |
30.0 |
— |
— |
35.5 |
43.2 |
8.3 |
— |
TerminalBench |
Terminus (準確率) |
25.0 |
16.3 |
6.6 |
— |
— |
30.3 |
16.8 |
Aider - Polyglot |
準確率 |
60.0 |
55.1 |
61.8 |
56.4 |
70.7 |
52.4 |
44.0 |
工具使用任務 |
|
|
|
|
|
|
|
|
Tau2 retail |
Avg@4 |
70.6 |
69.1 |
57.0 |
75.0 |
81.8 |
74.8 |
64.3 |
Tau2 airline |
Avg@4 |
56.5 |
39.0 |
26.5 |
55.5 |
60.0 |
54.5 |
42.5 |
Tau2 telecom |
Avg@4 |
65.8 |
32.5 |
22.1 |
45.2 |
57.0 |
38.6 |
16.9 |
AceBench |
準確率 |
76.5 |
72.7 |
70.5 |
76.2 |
75.6 |
80.1 |
74.5 |
數學與 STEM 任務 |
|
|
|
|
|
|
|
|
AIME 2024 |
Avg@64 |
69.6 |
59.4* |
40.1* |
43.4 |
48.2 |
46.5 |
61.3 |
AIME 2025 |
Avg@64 |
49.5 |
46.7 |
24.7* |
33.1* |
33.9* |
37.0 |
46.6 |
MATH - 500 |
準確率 |
97.4 |
94.0* |
91.2* |
94.0 |
94.4 |
92.4 |
95.4 |
HMMT 2025 |
Avg@32 |
38.8 |
27.5 |
11.9 |
15.9 |
15.9 |
19.4 |
34.7 |
CNMO 2024 |
Avg@16 |
74.3 |
74.7 |
48.6 |
60.4 |
57.6 |
56.6 |
75.0 |
PolyMath - en |
Avg@4 |
65.1 |
59.5 |
51.9 |
52.8 |
49.8 |
54.0 |
49.9 |
ZebraLogic |
準確率 |
89.0 |
84.0 |
37.7* |
73.7 |
59.3 |
58.5 |
57.9 |
AutoLogi |
準確率 |
89.5 |
88.9 |
83.3 |
89.8 |
86.1 |
88.2 |
84.1 |
GPQA - Diamond |
Avg@8 |
75.1 |
68.4* |
62.9* |
70.0* |
74.9* |
66.3 |
68.2 |
SuperGPQA |
準確率 |
57.2 |
53.7 |
50.2 |
55.7 |
56.5 |
50.8 |
49.6 |
Humanity's Last Exam (僅文本) |
- |
4.7 |
5.2 |
5.7 |
5.8 |
7.1 |
3.7 |
5.6 |
通用任務 |
|
|
|
|
|
|
|
|
MMLU |
EM |
89.5 |
89.4 |
87.0 |
91.5 |
92.9 |
90.4 |
90.1 |
MMLU - Redux |
EM |
92.7 |
90.5 |
89.2 |
93.6 |
94.2 |
92.4 |
90.6 |
MMLU - Pro |
EM |
81.1 |
81.2* |
77.3 |
83.7 |
86.6 |
81.8 |
79.4 |
IFEval |
嚴格提示 |
89.8 |
81.1 |
83.2* |
87.6 |
87.4 |
88.0 |
84.3 |
Multi - Challenge |
準確率 |
54.1 |
31.4 |
34.0 |
46.8 |
49.0 |
36.4 |
39.5 |
SimpleQA |
正確 |
31.0 |
27.7 |
13.2 |
15.9 |
22.8 |
42.3 |
23.3 |
Livebench |
Pass@1 |
76.4 |
72.4 |
67.6 |
74.8 |
74.6 |
69.8 |
67.8 |
• 加粗表示全球最優,下劃線表示開源最優。
• 標記為 * 的數據點直接取自模型的技術報告或博客。
• 除 SWE - bench 驗證(無智能體)外,所有指標均在 8k 輸出標記長度下評估。SWE - bench 驗證(無智能體)限制為 16k 輸出標記長度。
• Kimi K2 在使用 bash/編輯器工具的 SWE - bench 驗證測試中,單次嘗試補丁(無測試時計算)的通過率達到 65.8%。在相同條件下,SWE - bench 多語言測試的通過率為 47.3%。此外,我們還報告了利用並行測試時計算的 SWE - bench 驗證測試結果(71.6%),通過採樣多個序列並通過內部評分模型選擇最佳序列。
• 為確保評估的穩定性,我們在 AIME、HMMT、CNMO、PolyMath - en、GPQA - Diamond、EvalPlus、Tau2 上採用了 avg@k。
• 由於評估成本過高,部分數據點已省略。
基礎模型評估結果
基準測試 |
指標 |
樣本數量 |
Kimi K2 Base |
Deepseek - V3 - Base |
Qwen2.5 - 72B |
Llama 4 Maverick |
通用任務 |
|
|
|
|
|
|
MMLU |
EM |
5 - shot |
87.8 |
87.1 |
86.1 |
84.9 |
MMLU - pro |
EM |
5 - shot |
69.2 |
60.6 |
62.8 |
63.5 |
MMLU - redux - 2.0 |
EM |
5 - shot |
90.2 |
89.5 |
87.8 |
88.2 |
SimpleQA |
正確 |
5 - shot |
35.3 |
26.5 |
10.3 |
23.7 |
TriviaQA |
EM |
5 - shot |
85.1 |
84.1 |
76.0 |
79.3 |
GPQA - Diamond |
Avg@8 |
5 - shot |
48.1 |
50.5 |
40.8 |
49.4 |
SuperGPQA |
EM |
5 - shot |
44.7 |
39.2 |
34.2 |
38.8 |
編碼任務 |
|
|
|
|
|
|
LiveCodeBench v6 |
Pass@1 |
1 - shot |
26.3 |
22.9 |
21.1 |
25.1 |
EvalPlus |
Pass@1 |
- |
80.3 |
65.6 |
66.0 |
65.5 |
數學任務 |
|
|
|
|
|
|
MATH |
EM |
4 - shot |
70.2 |
60.1 |
61.0 |
63.0 |
GSM8k |
EM |
8 - shot |
92.1 |
91.7 |
90.4 |
86.3 |
中文任務 |
|
|
|
|
|
|
C - Eval |
EM |
5 - shot |
92.5 |
90.0 |
90.9 |
80.9 |
CSimpleQA |
|
|
|
|
|
|
📄 許可證
本項目採用修改後的 MIT 許可證,詳情請見 LICENSE 文件。