🚀 DeepSeek-R1
Unslothを介して、大規模言語モデル(LLM)の微調整を2~5倍高速化し、メモリ使用量を70%削減できます!
🚀 クイックスタート
Qwen2.5 (7B) 用の無料のGoogle Colab Tesla T4ノートブックがこちらにあります:リンク
✨ 主な機能
- UnslothのDeepSeek-R1の1.58-bit + 2-bit Dynamic Quantsは選択的に量子化されており、標準的な1-bit/2-bitよりも精度が大幅に向上しています。
- 様々なLLMモデルに対応した無料の微調整用ノートブックを提供しています。各モデルの微調整では、高速化とメモリ使用量の削減が可能です。
📦 インストール
DeepSeek-R1-Distillモデルを使用する場合は、以下の例のように起動できます。
vLLMを使用した起動
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
SGLangを使用した起動
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2
💻 使用例
基本的な使用法
DeepSeek-R1シリーズのモデルを使用する際は、以下の設定を推奨します。
- 温度を0.5~0.7の範囲(推奨値は0.6)に設定して、無限の繰り返しや不整合な出力を防ぎます。
- システムプロンプトを追加しないでください。すべての指示はユーザープロンプトに含める必要があります。
- 数学の問題の場合は、プロンプトに「Please reason step by step, and put your final answer within \boxed{}」のような指示を含めることをおすすめします。
- モデルの性能を評価する際は、複数回のテストを行い、結果を平均することを推奨します。
📚 ドキュメント
1. 導入
DeepSeek-R1-ZeroとDeepSeek-R1という第1世代の推論モデルを紹介します。DeepSeek-R1-Zeroは、事前学習として教師あり微調整(SFT)を行わずに大規模強化学習(RL)で訓練されたモデルで、推論性能が顕著です。しかし、無限の繰り返し、読みにくさ、言語の混合などの問題があります。これらの問題を解決し、推論性能をさらに向上させるために、RLの前にコールドスタートデータを組み込んだDeepSeek-R1を導入しました。DeepSeek-R1は、数学、コード、推論タスクでOpenAI-o1に匹敵する性能を達成しています。
2. モデルの概要
事後学習: ベースモデルでの大規模強化学習
- 事前学習としてSFTに依存せずに、ベースモデルに直接強化学習(RL)を適用し、DeepSeek-R1-Zeroを開発しました。このアプローチにより、モデルは複雑な問題を解決するための思考の連鎖(CoT)を探索できます。
- DeepSeek-R1を開発するためのパイプラインを導入しました。このパイプラインには、改善された推論パターンを発見し、人間の好みに合わせるための2つのRL段階と、モデルの推論および非推論能力の種として機能する2つのSFT段階が含まれています。
蒸留: 小さいモデルでも強力です
- 大きなモデルの推論パターンを小さいモデルに蒸留することができ、小さいモデルでRLを行って発見された推論パターンよりも性能が向上します。
- DeepSeek-R1で生成された推論データを使用して、研究コミュニティで広く使用されているいくつかの高密度モデルを微調整しました。評価結果は、蒸留された小さい高密度モデルがベンチマークで非常に良好な性能を発揮することを示しています。
3. モデルのダウンロード
DeepSeek-R1モデル
モデル |
総パラメータ数 |
活性化パラメータ数 |
コンテキスト長 |
ダウンロード |
DeepSeek-R1-Zero |
671B |
37B |
128K |
HuggingFace |
DeepSeek-R1 |
671B |
37B |
128K |
HuggingFace |
DeepSeek-R1-Distillモデル
4. 評価結果
DeepSeek-R1の評価
すべてのモデルの最大生成長は32,768トークンに設定されています。サンプリングが必要なベンチマークでは、温度を0.6、top-p値を0.95に設定し、クエリごとに64の応答を生成してpass@1を推定します。
カテゴリ |
ベンチマーク (指標) |
Claude-3.5-Sonnet-1022 |
GPT-4o 0513 |
DeepSeek V3 |
OpenAI o1-mini |
OpenAI o1-1217 |
DeepSeek R1 |
|
アーキテクチャ |
- |
- |
MoE |
- |
- |
MoE |
|
活性化パラメータ数 |
- |
- |
37B |
- |
- |
37B |
|
総パラメータ数 |
- |
- |
671B |
- |
- |
671B |
英語 |
MMLU (Pass@1) |
88.3 |
87.2 |
88.5 |
85.2 |
91.8 |
90.8 |
|
MMLU-Redux (EM) |
88.9 |
88.0 |
89.1 |
86.7 |
- |
92.9 |
|
MMLU-Pro (EM) |
78.0 |
72.6 |
75.9 |
80.3 |
- |
84.0 |
|
DROP (3-shot F1) |
88.3 |
83.7 |
91.6 |
83.9 |
90.2 |
92.2 |
|
IF-Eval (Prompt Strict) |
86.5 |
84.3 |
86.1 |
84.8 |
- |
83.3 |
|
GPQA-Diamond (Pass@1) |
65.0 |
49.9 |
59.1 |
60.0 |
75.7 |
71.5 |
|
SimpleQA (Correct) |
28.4 |
38.2 |
24.9 |
7.0 |
47.0 |
30.1 |
|
FRAMES (Acc.) |
72.5 |
80.5 |
73.3 |
76.9 |
- |
82.5 |
|
AlpacaEval2.0 (LC-winrate) |
52.0 |
51.1 |
70.0 |
57.8 |
- |
87.6 |
|
ArenaHard (GPT-4-1106) |
85.2 |
80.4 |
85.5 |
92.0 |
- |
92.3 |
コード |
LiveCodeBench (Pass@1-COT) |
33.8 |
34.2 |
- |
53.8 |
63.4 |
65.9 |
|
Codeforces (Percentile) |
20.3 |
23.6 |
58.7 |
93.4 |
96.6 |
96.3 |
|
Codeforces (Rating) |
717 |
759 |
1134 |
1820 |
2061 |
2029 |
|
SWE Verified (Resolved) |
50.8 |
38.8 |
42.0 |
41.6 |
48.9 |
49.2 |
|
Aider-Polyglot (Acc.) |
45.3 |
16.0 |
49.6 |
32.9 |
61.7 |
53.3 |
数学 |
AIME 2024 (Pass@1) |
16.0 |
9.3 |
39.2 |
63.6 |
79.2 |
79.8 |
|
MATH-500 (Pass@1) |
78.3 |
74.6 |
90.2 |
90.0 |
96.4 |
97.3 |
|
CNMO 2024 (Pass@1) |
13.1 |
10.8 |
43.2 |
67.6 |
- |
78.8 |
中国語 |
CLUEWSC (EM) |
85.4 |
87.9 |
90.9 |
89.9 |
- |
92.8 |
|
C-Eval (EM) |
76.7 |
76.0 |
86.5 |
68.9 |
- |
91.8 |
|
C-SimpleQA (Correct) |
55.4 |
58.7 |
68.0 |
40.3 |
- |
63.7 |
蒸留モデルの評価
モデル |
AIME 2024 pass@1 |
AIME 2024 cons@64 |
MATH-500 pass@1 |
GPQA Diamond pass@1 |
LiveCodeBench pass@1 |
CodeForces rating |
GPT-4o-0513 |
9.3 |
13.4 |
74.6 |
49.9 |
32.9 |
759 |
Claude-3.5-Sonnet-1022 |
16.0 |
26.7 |
78.3 |
65.0 |
38.9 |
717 |
o1-mini |
63.6 |
80.0 |
90.0 |
60.0 |
53.8 |
1820 |
QwQ-32B-Preview |
44.0 |
60.0 |
90.6 |
54.5 |
41.9 |
1316 |
DeepSeek-R1-Distill-Qwen-1.5B |
28.9 |
52.7 |
83.9 |
33.8 |
16.9 |
954 |
DeepSeek-R1-Distill-Qwen-7B |
55.5 |
83.3 |
92.8 |
49.1 |
37.6 |
1189 |
DeepSeek-R1-Distill-Qwen-14B |
69.7 |
80.0 |
93.9 |
59.1 |
53.1 |
1481 |
DeepSeek-R1-Distill-Qwen-32B |
72.6 |
83.3 |
94.3 |
62.1 |
57.2 |
1691 |
DeepSeek-R1-Distill-Llama-8B |
50.4 |
80.0 |
89.1 |
49.0 |
39.6 |
1205 |
DeepSeek-R1-Distill-Llama-70B |
70.0 |
86.7 |
94.5 |
65.2 |
57.5 |
1633 |
5. チャットウェブサイトとAPIプラットフォーム
DeepSeekの公式ウェブサイト chat.deepseek.com でDeepSeek-R1とチャットできます。「DeepThink」ボタンをオンにしてください。また、DeepSeekプラットフォーム platform.deepseek.com でOpenAI互換APIも提供しています。
6. ローカルでの実行方法
DeepSeek-R1モデル
DeepSeek-R1をローカルで実行する詳細な情報は、DeepSeek-V3 リポジトリを参照してください。
DeepSeek-R1-Distillモデル
DeepSeek-R1-Distillモデルは、QwenまたはLlamaモデルと同じ方法で利用できます。
7. ライセンス
このコードリポジトリとモデルの重みは、MITライセンス の下でライセンスされています。DeepSeek-R1シリーズは商用利用をサポートしており、任意の変更や派生作品を許可しています。
8. 引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability
⚠️ 重要提示
DeepSeek-R1シリーズのモデルをローカルで実行する前に、使用推奨事項 セクションを確認することをおすすめします。
💡 使用建议
- 温度を0.5~0.7の範囲(推奨値は0.6)に設定して、無限の繰り返しや不整合な出力を防ぎます。
- システムプロンプトを追加しないでください。すべての指示はユーザープロンプトに含める必要があります。
- 数学の問題の場合は、プロンプトに「Please reason step by step, and put your final answer within \boxed{}」のような指示を含めることをおすすめします。
- モデルの性能を評価する際は、複数回のテストを行い、結果を平均することを推奨します。