模型概述
模型特點
模型能力
使用案例
數據信息
訓練數據集由大約 24K 個獨特的問題 - 測試對組成,這些數據來自以下來源:
- Taco - Verified
- PrimeIntellect SYNTHETIC - 1
- LiveCodeBench v5 (5/1/23 - 7/31/24)
訓練方法
訓練方法依賴於改進版的 GRPO (GRPO+) 和迭代上下文延長技術,這些技術在 DeepScaleR 中被引入。
GRPO+
通過借鑑 DAPO 的見解對原始 GRPO 算法進行增強,以實現更穩定的訓練:
- 離線難度過濾:DAPO 使用在線動態採樣,即時丟棄完全正確和完全錯誤的樣本。雖然這有助於保持更穩定的有效批量大小,但由於拒絕採樣會引入顯著的運行時開銷。因此,我們對一部分編碼問題進行離線難度過濾,以確保訓練數據集保持在合適的難度範圍內。
- 無熵損失:觀察發現,包含熵損失項通常會導致訓練不穩定,熵呈指數增長並最終導致訓練崩潰。為了緩解這個問題,我們完全消除了熵損失。
- 無 KL 損失:消除 KL 損失可以防止大語言模型停留在原始 SFT 模型的信任區域內。這種去除還避免了為參考策略計算對數概率的需要,從而加速了訓練。
- 超長過濾(來自 DAPO):為了保留長上下文推理能力,我們對截斷序列的損失進行掩碼處理。這種技術使 DeepCoder 能夠在 64K 上下文推理中進行泛化,儘管它是在 32K 上下文下進行訓練的。
- 高值裁剪(來自 DAPO):通過增加 GRPO/PPO 替代損失的上限,我們鼓勵更多的探索和更穩定的熵。
迭代上下文延長
原始的 Deepscaler - 1.5B - Preview
從 8K 到 16K 再到 24K 進行長上下文訓練,在 AIME 上分別達到了 33%、38% 和 43% 的準確率。同樣,Deepcoder - 14B - Preview
在 16K 到 32K 上進行訓練,在 LiveCodeBench (v5) 上達到了 54% 到 58% 的準確率。當在 64K 上下文下進行評估時,DeepCoder - 14B - Preview
成功地泛化到更長的上下文,達到了 60.6% 的準確率。
由於採用了 DAPO 的超長過濾技術,DeepCoder 比基礎蒸餾模型在長上下文上具有更好的泛化能力。然而,當最大長度限制為 16K 時,其較長的響應通常會被截斷,這可能會降低其得分。
模型 | 16K | 32K | 64K |
---|---|---|---|
DeepCoder - 14B - Preview | 45.6 | 57.9 | 60.6 |
DeepSeek - R1 - Distill - Qwen - 14B | 50.2 | 53.0 | 53.0 |
更詳細的訓練方法描述可以在我們的 博客文章 中找到。
評估結果
我們在各種編碼基準測試中對 Deepcoder - 14B - Preview
進行了評估,包括 LiveCodeBench (LCBv5)、Codeforces 和 HumanEval+。
模型 | LCB (v5)(8/1/24 - 2/1/25) | Codeforces Rating | Codeforces Percentile | HumanEval+ |
---|---|---|---|---|
DeepCoder - 14B - Preview (我們的模型) | 60.6 | 1936 | 95.3 | 92.6 |
DeepSeek - R1 - Distill - Qwen - 14B | 53.0 | 1791 | 92.7 | 92.0 |
O1 - 2024 - 12 - 17 (Low) | 59.5 | 1991 | 96.1 | 90.8 |
O3 - Mini - 2025 - 1 - 31 (Low) | 60.9 | 1918 | 94.9 | 92.6 |
O1 - Preview | 42.7 | 1658 | 88.5 | 89 |
Deepseek - R1 | 62.8 | 1948 | 95.4 | 92.6 |
Llama - 4 - Behemoth | 49.4 | - | - | - |
使用建議
我們的使用建議與 R1 和 R1 Distill 系列相似:
- 避免添加系統提示;所有指令應包含在用戶提示中。
temperature = 0.6
top_p = 0.95
- 該模型在
max_tokens
至少設置為64000
時表現最佳。
🔧 技術細節
文檔未提供足夠詳細的技術實現細節,可參考相關論文和代碼倉庫獲取更多信息。
📄 許可證
本項目採用 MIT 許可證發佈,這體現了我們對開放和可訪問的人工智能開發的承諾。我們相信通過免費提供我們的工作,讓任何人都可以使用、修改和擴展,從而實現人工智能技術的民主化。這種寬鬆的許可證確保了全球的研究人員、開發者和愛好者可以無限制地利用和擴展我們的工作,促進人工智能社區的創新和合作。
致謝
- 我們的訓練實驗由我們對 Verl 的深度修改分支提供支持,Verl 是一個開源的訓練後處理庫。
- 我們的模型基於
DeepSeek - R1 - Distill - Qwen - 14B
進行訓練。 - 我們的工作是 伯克利天空計算實驗室 和 伯克利人工智能研究 的一部分。
引用
@misc{deepcoder2025,
title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion Blog},
year={2025}
}

