🚀 DeepCoder-1.5B-Preview
DeepCoder-1.5B-Preview 是一款代碼推理大語言模型(LLM),它基於分佈式強化學習(RL)對 DeepSeek-R1-Distilled-Qwen-1.5B 進行微調,以支持長上下文推理。
🚀 快速開始
文檔中未提及快速開始的相關內容,若有需求可參考後續模型使用及訓練的相關介紹。
✨ 主要特性
- 長上下文支持:通過分佈式強化學習,能夠處理較長的上下文長度。
- 數據豐富:使用了包含約 24K 個獨特問題 - 測試對的訓練數據集。
- 訓練方法改進:採用改進版的 GRPO(GRPO+)算法和迭代上下文延長技術,實現更穩定的訓練和更好的長上下文泛化能力。
📦 安裝指南
文檔未提供具體安裝命令,暫不展示安裝指南。
💻 使用示例
文檔未提供代碼示例,暫不展示使用示例。
📚 詳細文檔
DeepCoder 概述
DeepCoder-1.5B-Preview 是從 DeepSeek-R1-Distilled-Qwen-1.5B 微調而來的代碼推理大語言模型,利用分佈式強化學習擴展到長上下文長度。
數據
我們的訓練數據集包含約 24K 個獨特的問題 - 測試對,這些數據來自以下來源:
- Taco-Verified
- PrimeIntellect SYNTHETIC-1
- LiveCodeBench v5(2023 年 5 月 1 日 - 2024 年 7 月 31 日)
訓練方法
GRPO+
我們結合 DAPO 的見解對原始的 GRPO 算法進行了改進,以實現更穩定的訓練:
- 離線難度過濾:DAPO 使用在線動態採樣,在運行時丟棄完全正確和完全錯誤的樣本。雖然這有助於保持更穩定的有效批量大小,但由於拒絕採樣會引入顯著的運行時開銷。相反,我們對一部分編碼問題進行離線難度過濾,以確保訓練數據集保持在合適的難度範圍內。
- 無熵損失:我們觀察到包含熵損失項通常會導致不穩定性,熵呈指數增長並最終導致訓練崩潰。為了緩解這個問題,我們完全消除了熵損失。
- 無 KL 損失:消除 KL 損失可以防止大語言模型停留在原始監督微調(SFT)模型的信任區域內。這種去除也消除了為參考策略計算對數概率的需要,從而加速了訓練。
- 超長過濾(來自 DAPO):為了保留長上下文推理能力,我們對截斷序列的損失進行掩碼處理。這種技術使 DeepCoder 即使在 32K 上下文下訓練,也能推廣到 64K 上下文的推理。
- 上限裁剪(來自 DAPO):通過增加 GRPO/PPO 替代損失的上限,我們鼓勵更多的探索和更穩定的熵。
迭代上下文延長
我們最初的 Deepscaler-1.5B-Preview
將長上下文訓練從 8K 擴展到 16K 再到 24K,在 AIME 上分別達到了 33%、38% 和 43% 的準確率。同樣,Deepcoder-14B-Preview
在 16K 到 32K 的上下文上進行訓練,在 LiveCodeBench(v5)上達到了 54% 到 58% 的準確率。DeepCoder-14B-Preview
在 64K 上下文評估時成功推廣到更長的上下文,達到了 60.6% 的準確率。
由於採用了 DAPO 的超長過濾技術,DeepCoder 比基礎蒸餾模型在長上下文上具有更好的泛化能力。然而,當最大長度限制為 16K 時,其較長的響應通常會被截斷,這可能會降低其得分。
模型 |
16K |
32K |
64K |
DeepCoder-14B-Preview |
45.6 |
57.9 |
60.6 |
DeepSeek-R1-Distill-Qwen-14B |
50.2 |
53.0 |
53.0 |
更多關於訓練方法的詳細描述可以在我們的 博客文章 中找到。
評估
我們在多個編碼基準測試中對 Deepcoder-1.5B-Preview
進行了評估,包括 LiveCodeBench(LCBv5)、Codeforces 和 HumanEval+。
模型 |
LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日) |
Codeforces 評分 |
Codeforces 百分位數 |
HumanEval+ |
DeepCoder-1.5B-Preview |
25.1 |
963 |
28.5 |
73.0 |
Deepseek-R1-Distill-Qwen-1.5B |
16.9 |
615 |
1.9 |
58.3 |
模型服務
我們的模型可以使用以下流行的高性能推理系統進行服務:
- vLLM
- Hugging Face 文本生成推理(TGI)
- SGLang
- TensorRT-LLM
所有這些系統都支持 OpenAI 聊天完成 API 格式。
🔧 技術細節
文檔中關於技術細節的描述已在“訓練方法”部分詳細說明。
📄 許可證
本項目採用 MIT 許可證發佈,體現了我們對開放和可訪問的人工智能開發的承諾。我們相信通過免費提供我們的工作,讓任何人都可以使用、修改和擴展,能夠推動人工智能技術的普及。這種寬鬆的許可證確保了全球的研究人員、開發人員和愛好者可以不受限制地利用和擴展我們的工作,促進人工智能社區的創新和合作。
致謝
引用
@misc{deepcoder2025,
title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica, Tianjun Zhang},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion Blog},
year={2025}
}