🚀 DeepSeek-R1
DeepSeek-R1是第一代推理模型,在數學、代碼和推理任務上表現出色,性能可與OpenAI-o1相媲美。項目開源了多個模型及蒸餾模型,為研究社區提供支持。
🚀 快速開始
你可以在DeepSeek的官方網站 chat.deepseek.com 上與DeepSeek-R1進行對話,並開啟“DeepThink”按鈕。同時,我們在DeepSeek平臺 platform.deepseek.com 上提供了與OpenAI兼容的API。
本地運行
DeepSeek-R1模型
有關在本地運行DeepSeek-R1的更多信息,請訪問 DeepSeek-V3 倉庫。
DeepSeek-R1-Distill模型
DeepSeek-R1-Distill模型的使用方式與Qwen或Llama模型相同。例如,你可以使用 vLLM 輕鬆啟動服務:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
⚠️ 重要提示
運行這些模型時,建議將溫度設置在0.5到0.7之間,否則可能會出現無限重複或輸出不連貫的問題。
✨ 主要特性
模型介紹
我們推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero通過大規模強化學習(RL)訓練,無需監督微調(SFT)作為初步步驟,在推理方面表現出色。然而,它也存在無盡重複、可讀性差和語言混合等問題。為解決這些問題並進一步提高推理性能,我們引入了DeepSeek-R1,它在RL之前加入了冷啟動數據。DeepSeek-R1在數學、代碼和推理任務上的性能與OpenAI-o1相當。為支持研究社區,我們開源了DeepSeek-R1-Zero、DeepSeek-R1以及基於Llama和Qwen從DeepSeek-R1蒸餾得到的六個密集模型。其中,DeepSeek-R1-Distill-Qwen-32B在各種基準測試中優於OpenAI-o1-mini,為密集模型取得了新的最優結果。
模型訓練與蒸餾
後訓練:在基礎模型上進行大規模強化學習
- 我們直接對基礎模型應用強化學習(RL),無需監督微調(SFT)作為初步步驟。這種方法使模型能夠探索思維鏈(CoT)來解決複雜問題,從而開發出DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我驗證、反思和生成長思維鏈等能力,為研究社區樹立了重要里程碑。值得注意的是,這是首次通過純RL激勵大語言模型(LLM)的推理能力,而無需SFT的公開研究,為該領域的未來發展鋪平了道路。
- 我們介紹了開發DeepSeek-R1的管道。該管道包括兩個RL階段,旨在發現更好的推理模式並與人類偏好對齊,以及兩個SFT階段,作為模型推理和非推理能力的種子。我們相信這個管道將通過創建更好的模型使行業受益。
蒸餾:小模型也能強大
我們證明了可以將大模型的推理模式蒸餾到小模型中,與在小模型上通過RL發現的推理模式相比,性能更優。開源的DeepSeek-R1及其API將有助於研究社區未來蒸餾出更好的小模型。我們使用DeepSeek-R1生成的推理數據對研究社區廣泛使用的幾個密集模型進行了微調。評估結果表明,蒸餾後的小密集模型在基準測試中表現出色。我們向社區開源了基於Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B的蒸餾檢查點。
📦 模型下載
DeepSeek-R1模型
DeepSeek-R1-Zero和DeepSeek-R1基於DeepSeek-V3-Base進行訓練。有關模型架構的更多詳細信息,請參考 DeepSeek-V3 倉庫。
DeepSeek-R1-Distill模型
DeepSeek-R1-Distill模型基於開源模型進行微調,使用DeepSeek-R1生成的樣本。我們對其配置和分詞器進行了輕微修改,請使用我們的設置來運行這些模型。
📚 詳細文檔
評估結果
DeepSeek-R1評估
對於我們所有的模型,最大生成長度設置為32,768個標記。對於需要採樣的基準測試,我們使用溫度為0.6、top-p值為0.95,併為每個查詢生成64個響應來估計pass@1。
類別 |
基準測試(指標) |
Claude-3.5-Sonnet-1022 |
GPT-4o 0513 |
DeepSeek V3 |
OpenAI o1-mini |
OpenAI o1-1217 |
DeepSeek R1 |
|
架構 |
- |
- |
MoE |
- |
- |
MoE |
|
激活參數數量 |
- |
- |
37B |
- |
- |
37B |
|
總參數數量 |
- |
- |
671B |
- |
- |
671B |
英語 |
MMLU(Pass@1) |
88.3 |
87.2 |
88.5 |
85.2 |
91.8 |
90.8 |
|
MMLU-Redux(EM) |
88.9 |
88.0 |
89.1 |
86.7 |
- |
92.9 |
|
MMLU-Pro(EM) |
78.0 |
72.6 |
75.9 |
80.3 |
- |
84.0 |
|
DROP(3-shot F1) |
88.3 |
83.7 |
91.6 |
83.9 |
90.2 |
92.2 |
|
IF-Eval(Prompt Strict) |
86.5 |
84.3 |
86.1 |
84.8 |
- |
83.3 |
|
GPQA-Diamond(Pass@1) |
65.0 |
49.9 |
59.1 |
60.0 |
75.7 |
71.5 |
|
SimpleQA(Correct) |
28.4 |
38.2 |
24.9 |
7.0 |
47.0 |
30.1 |
|
FRAMES(Acc.) |
72.5 |
80.5 |
73.3 |
76.9 |
- |
82.5 |
|
AlpacaEval2.0(LC-winrate) |
52.0 |
51.1 |
70.0 |
57.8 |
- |
87.6 |
|
ArenaHard(GPT-4-1106) |
85.2 |
80.4 |
85.5 |
92.0 |
- |
92.3 |
代碼 |
LiveCodeBench(Pass@1-COT) |
33.8 |
34.2 |
- |
53.8 |
63.4 |
65.9 |
|
Codeforces(Percentile) |
20.3 |
23.6 |
58.7 |
93.4 |
96.6 |
96.3 |
|
Codeforces(Rating) |
717 |
759 |
1134 |
1820 |
2061 |
2029 |
|
SWE Verified(Resolved) |
50.8 |
38.8 |
42.0 |
41.6 |
48.9 |
49.2 |
|
Aider-Polyglot(Acc.) |
45.3 |
16.0 |
49.6 |
32.9 |
61.7 |
53.3 |
數學 |
AIME 2024(Pass@1) |
16.0 |
9.3 |
39.2 |
63.6 |
79.2 |
79.8 |
|
MATH-500(Pass@1) |
78.3 |
74.6 |
90.2 |
90.0 |
96.4 |
97.3 |
|
CNMO 2024(Pass@1) |
13.1 |
10.8 |
43.2 |
67.6 |
- |
78.8 |
中文 |
CLUEWSC(EM) |
85.4 |
87.9 |
90.9 |
89.9 |
- |
92.8 |
|
C-Eval(EM) |
76.7 |
76.0 |
86.5 |
68.9 |
- |
91.8 |
|
C-SimpleQA(Correct) |
55.4 |
58.7 |
68.0 |
40.3 |
- |
63.7 |
蒸餾模型評估
模型 |
AIME 2024 pass@1 |
AIME 2024 cons@64 |
MATH-500 pass@1 |
GPQA Diamond pass@1 |
LiveCodeBench pass@1 |
CodeForces rating |
GPT-4o-0513 |
9.3 |
13.4 |
74.6 |
49.9 |
32.9 |
759 |
Claude-3.5-Sonnet-1022 |
16.0 |
26.7 |
78.3 |
65.0 |
38.9 |
717 |
o1-mini |
63.6 |
80.0 |
90.0 |
60.0 |
53.8 |
1820 |
QwQ-32B-Preview |
44.0 |
60.0 |
90.6 |
54.5 |
41.9 |
1316 |
DeepSeek-R1-Distill-Qwen-1.5B |
28.9 |
52.7 |
83.9 |
33.8 |
16.9 |
954 |
DeepSeek-R1-Distill-Qwen-7B |
55.5 |
83.3 |
92.8 |
49.1 |
37.6 |
1189 |
DeepSeek-R1-Distill-Qwen-14B |
69.7 |
80.0 |
93.9 |
59.1 |
53.1 |
1481 |
DeepSeek-R1-Distill-Qwen-32B |
72.6 |
83.3 |
94.3 |
62.1 |
57.2 |
1691 |
DeepSeek-R1-Distill-Llama-8B |
50.4 |
80.0 |
89.1 |
49.0 |
39.6 |
1205 |
DeepSeek-R1-Distill-Llama-70B |
70.0 |
86.7 |
94.5 |
65.2 |
57.5 |
1633 |
📄 許可證
此代碼倉庫和模型權重遵循 MIT許可證。DeepSeek-R1系列支持商業使用,允許進行任何修改和衍生作品,包括但不限於蒸餾以訓練其他大語言模型。請注意:
- DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B和DeepSeek-R1-Distill-Qwen-32B源自 Qwen-2.5系列,最初遵循 Apache 2.0許可證,現在使用DeepSeek-R1精心策劃的800k樣本進行微調。
- DeepSeek-R1-Distill-Llama-8B源自Llama3.1-8B-Base,最初遵循 llama3.1許可證。
- DeepSeek-R1-Distill-Llama-70B源自Llama3.3-70B-Instruct,最初遵循 llama3.3許可證。
📞 聯繫我們
如果您有任何問題,請提出問題或通過 service@deepseek.com 聯繫我們。