🚀 Kimi K2: オープンエージェント型人工知能
Kimi K2は最先端の混合専門家(Mixture-of-Experts, MoE)言語モデルで、活性化パラメータが320億、総パラメータが1兆に及びます。Muonオプティマイザで訓練され、最先端の知識、推論、コーディングタスクで卓越した性能を発揮し、エージェント機能に特化して最適化されています。
📰 Tech Blog | 📄 Paper Link (coming soon)
🚀 クイックスタート
Kimi K2は最先端の混合専門家(MoE)言語モデルで、320億の活性化パラメータと1兆の総パラメータを持ち、Muonオプティマイザで訓練されています。このモデルは、最先端の知識、推論、コーディングタスクで卓越した性能を発揮し、エージェント機能に特化して最適化されています。
✨ 主な機能
大規模訓練
15.5Tトークンで1TパラメータのMoEモデルを事前学習し、訓練の不安定性をゼロに抑えました。
MuonClipオプティマイザ
Muonオプティマイザを前例のない規模で適用し、拡張時の不安定性を解消するための新しい最適化技術を開発しました。
エージェント型人工知能
ツールの使用、推論、自律的な問題解決に特化して設計されています。
モデルバリアント
- Kimi-K2-Base:基礎モデルで、ファインチューニングやカスタムソリューションを完全にコントロールしたい研究者や開発者に最適です。
- Kimi-K2-Instruct:事後学習されたモデルで、即時使用可能な汎用チャットやエージェント型体験に最適です。長時間の思考を必要としないリフレックスグレードのモデルです。
📚 ドキュメント
モデル概要
属性 |
详情 |
アーキテクチャ |
混合専門家(Mixture-of-Experts, MoE) |
総パラメータ |
1T |
活性化パラメータ |
32B |
レイヤー数(密レイヤーを含む) |
61 |
密レイヤー数 |
1 |
アテンション隠れ次元 |
7168 |
MoE隠れ次元(エキスパートごと) |
2048 |
アテンションヘッド数 |
64 |
エキスパート数 |
384 |
トークンごとに選択されるエキスパート数 |
8 |
共有エキスパート数 |
1 |
語彙サイズ |
160K |
コンテキスト長 |
128K |
アテンションメカニズム |
MLA |
活性化関数 |
SwiGLU |
評価結果
命令モデルの評価結果
ベンチマーク |
指標 |
Kimi K2 Instruct |
DeepSeek-V3-0324 |
Qwen3-235B-A22B (非思考型) |
Claude Sonnet 4 (拡張思考なし) |
Claude Opus 4 (拡張思考なし) |
GPT-4.1 |
Gemini 2.5 Flash Preview (05-20) |
コーディングタスク |
LiveCodeBench v6 (24年8月 - 25年5月) |
Pass@1 |
53.7 |
46.9 |
37.0 |
48.5 |
47.4 |
44.7 |
44.7 |
OJBench |
Pass@1 |
27.1 |
24.0 |
11.3 |
15.3 |
19.6 |
19.5 |
19.5 |
MultiPL-E |
Pass@1 |
85.7 |
83.1 |
78.2 |
88.6 |
89.6 |
86.7 |
85.6 |
SWE-bench Verified (エージェントなしコーディング) |
単一パッチ(テストなし)(Acc) |
51.8 |
36.6 |
39.4 |
50.2 |
53.0 |
40.8 |
32.6 |
SWE-bench Verified (エージェント型コーディング) |
単一試行(Acc) |
65.8 |
38.8 |
34.4 |
72.7* |
72.5* |
54.6 |
— |
複数試行(Acc) |
71.6 |
— |
— |
80.2 |
79.4* |
— |
— |
SWE-bench Multilingual (エージェント型コーディング) |
単一試行(Acc) |
47.3 |
25.8 |
20.9 |
51.0 |
— |
31.5 |
— |
TerminalBench |
社内フレームワーク(Acc) |
30.0 |
— |
— |
35.5 |
43.2 |
8.3 |
— |
Terminus(Acc) |
25.0 |
16.3 |
6.6 |
— |
— |
30.3 |
16.8 |
Aider-Polyglot |
Acc |
60.0 |
55.1 |
61.8 |
56.4 |
70.7 |
52.4 |
44.0 |
ツール使用タスク |
Tau2 retail |
Avg@4 |
70.6 |
69.1 |
57.0 |
75.0 |
81.8 |
74.8 |
64.3 |
Tau2 airline |
Avg@4 |
56.5 |
39.0 |
26.5 |
55.5 |
60.0 |
54.5 |
42.5 |
Tau2 telecom |
Avg@4 |
65.8 |
32.5 |
22.1 |
45.2 |
57.0 |
38.6 |
16.9 |
AceBench |
Acc |
76.5 |
72.7 |
70.5 |
76.2 |
75.6 |
80.1 |
74.5 |
数学とSTEMタスク |
AIME 2024 |
Avg@64 |
69.6 |
59.4* |
40.1* |
43.4 |
48.2 |
46.5 |
61.3 |
AIME 2025 |
Avg@64 |
49.5 |
46.7 |
24.7* |
33.1* |
33.9* |
37.0 |
46.6 |
MATH-500 |
Acc |
97.4 |
94.0* |
91.2* |
94.0 |
94.4 |
92.4 |
95.4 |
HMMT 2025 |
Avg@32 |
38.8 |
27.5 |
11.9 |
15.9 |
15.9 |
19.4 |
34.7 |
CNMO 2024 |
Avg@16 |
74.3 |
74.7 |
48.6 |
60.4 |
57.6 |
56.6 |
75.0 |
PolyMath-en |
Avg@4 |
65.1 |
59.5 |
51.9 |
52.8 |
49.8 |
54.0 |
49.9 |
ZebraLogic |
Acc |
89.0 |
84.0 |
37.7* |
73.7 |
59.3 |
58.5 |
57.9 |
AutoLogi |
Acc |
89.5 |
88.9 |
83.3 |
89.8 |
86.1 |
88.2 |
84.1 |
GPQA-Diamond |
Avg@8 |
75.1 |
68.4* |
62.9* |
70.0* |
74.9* |
66.3 |
68.2 |
SuperGPQA |
Acc |
57.2 |
53.7 |
50.2 |
55.7 |
56.5 |
50.8 |
49.6 |
Humanity's Last Exam (テキストのみ) |
- |
4.7 |
5.2 |
5.7 |
5.8 |
7.1 |
3.7 |
5.6 |
一般タスク |
MMLU |
EM |
89.5 |
89.4 |
87.0 |
91.5 |
92.9 |
90.4 |
90.1 |
MMLU-Redux |
EM |
92.7 |
90.5 |
89.2 |
93.6 |
94.2 |
92.4 |
90.6 |
MMLU-Pro |
EM |
81.1 |
81.2* |
77.3 |
83.7 |
86.6 |
81.8 |
79.4 |
IFEval |
プロンプト厳格 |
89.8 |
81.1 |
83.2* |
87.6 |
87.4 |
88.0 |
84.3 |
Multi-Challenge |
Acc |
54.1 |
31.4 |
34.0 |
46.8 |
49.0 |
36.4 |
39.5 |
SimpleQA |
正解 |
31.0 |
27.7 |
13.2 |
15.9 |
22.8 |
42.3 |
23.3 |
Livebench |
Pass@1 |
76.4 |
72.4 |
67.6 |
74.8 |
74.6 |
69.8 |
67.8 |
• 太字はグローバルなSOTAを示し、下線はオープンソースのSOTAを示します。
• * でマークされたデータポイントは、モデルの技術レポートまたはブログから直接引用されています。
• SWE-bench Verified (エージェントなし) を除くすべての指標は、8kの出力トークン長で評価されています。SWE-bench Verified (エージェントなし) は16kの出力トークン長に制限されています。
• Kimi K2は、bash/エディタツールを使用したSWE-bench Verifiedテストで65.8%のpass@1を達成しています(単一試行パッチ、テスト時の計算なし)。同じ条件下で、SWE-bench Multilingualテストで47.3%のpass@1を達成しています。さらに、内部スコアリングモデルを使用して複数のシーケンスをサンプリングし、単一の最良解を選択することで、並列テスト時の計算を活用したSWE-bench Verifiedテストの結果も報告しています(71.6%)。
• 評価の安定性を確保するため、AIME、HMMT、CNMO、PolyMath-en、GPQA-Diamond、EvalPlus、Tau2ではavg@kを採用しています。
• 評価コストが高すぎるため、一部のデータポイントは省略されています。
基礎モデルの評価結果
ベンチマーク |
指標 |
ショット数 |
Kimi K2 Base |
Deepseek-V3-Base |
Qwen2.5-72B |
Llama 4 Maverick |
一般タスク |
MMLU |
EM |
5-shot |
87.8 |
87.1 |
86.1 |
84.9 |
MMLU-pro |
EM |
5-shot |
69.2 |
60.6 |
62.8 |
63.5 |
MMLU-redux-2.0 |
EM |
5-shot |
90.2 |
89.5 |
87.8 |
88.2 |
SimpleQA |
正解 |
5-shot |
35.3 |
26.5 |
10.3 |
23.7 |
TriviaQA |
EM |
5-shot |
85.1 |
84.1 |
76.0 |
79.3 |
GPQA-Diamond |
Avg@8 |
5-shot |
48.1 |
50.5 |
40.8 |
49.4 |
SuperGPQA |
EM |
5-shot |
44.7 |
39.2 |
34.2 |
38.8 |
コーディングタスク |
LiveCodeBench v6 |
Pass@1 |
1-shot |
26.3 |
22.9 |
21.1 |
25.1 |
EvalPlus |
Pass@1 |
- |
80.3 |
65.6 |
66.0 |
65.5 |
数学タスク |
MATH |
EM |
4-shot |
70.2 |
60.1 |
61.0 |
63.0 |
GSM8k |
EM |
8-shot |
92.1 |
91.7 |
90.4 |
86.3 |
中国語タスク |
C-Eval |
EM |
5-shot |
92.5 |
90.0 |
90.9 |
80.9 |
CSimpleQ |
正解 |
5-shot |
88.7 |
86.5 |
85.2 |
82.3 |
📄 ライセンス
このプロジェクトは、Modified MITライセンスの下でライセンスされています。詳細については、LICENSE ファイルを参照してください。