🚀 DeepCoder-1.5B-Preview (AWQ 4bit 128g)
🚀 本項目致力於讓大語言模型的強化學習(RLLM)更加普及 🌟
🚀 快速開始
本項目暫未提供快速開始的相關內容,你可以參考後續詳細文檔進行操作。
✨ 主要特性
- 代碼推理能力:DeepCoder-1.5B-Preview 是一個代碼推理大語言模型,通過分佈式強化學習(RL)從 DeepSeek-R1-Distilled-Qwen-1.5B 微調而來,能夠處理長上下文的代碼推理任務。
- 改進的訓練算法:採用改進版的 GRPO(GRPO+)算法,結合迭代上下文擴展技術,提高了模型的訓練穩定性和長上下文推理能力。
- 多系統支持:模型可以使用流行的高性能推理系統進行服務,如 vLLM、Hugging Face Text Generation Inference(TGI)、SGLang 和 TensorRT-LLM,並且支持 OpenAI Chat Completions API 格式。
📚 詳細文檔
DeepCoder 概述
DeepCoder-1.5B-Preview 是一個代碼推理大語言模型,它基於 DeepSeek-R1-Distilled-Qwen-1.5B,通過分佈式強化學習(RL)進行微調,以處理長上下文的代碼推理任務。
數據
我們的訓練數據集包含約 24K 個獨特的問題 - 測試對,這些數據來自以下來源:
- Taco-Verified
- PrimeIntellect SYNTHETIC-1
- LiveCodeBench v5(2023 年 5 月 1 日 - 2024 年 7 月 31 日)
訓練方法
GRPO+
我們通過借鑑 DAPO 的經驗,對原始的 GRPO 算法進行了改進,以實現更穩定的訓練:
- 離線難度過濾:DAPO 使用在線動態採樣,會即時丟棄完全正確和完全錯誤的樣本。雖然這有助於保持更穩定的有效批量大小,但由於拒絕採樣會帶來顯著的運行時開銷。因此,我們對一部分編碼問題進行離線難度過濾,以確保訓練數據集的難度保持在合適的範圍內。
- 無熵損失:我們發現包含熵損失項通常會導致訓練不穩定,熵會呈指數級增長,最終導致訓練崩潰。為了緩解這個問題,我們完全去除了熵損失。
- 無 KL 損失:去除 KL 損失可以防止大語言模型侷限於原始 SFT 模型的信任區域內。同時,這也避免了為參考策略計算對數概率的需要,從而加速了訓練。
- 超長過濾(來自 DAPO):為了保留長上下文推理能力,我們對截斷序列的損失進行掩碼處理。這種技術使 DeepCoder 能夠在 32K 上下文的訓練下,推廣到 64K 上下文的推理。
- 高截斷(來自 DAPO):通過提高 GRPO/PPO 替代損失的上限,我們鼓勵更多的探索和更穩定的熵。
迭代上下文擴展
我們最初的 Deepscaler-1.5B-Preview
將長上下文訓練從 8K 擴展到 16K 再到 24K,在 AIME 上的準確率分別達到 33%、38% 和 43%。同樣,Deepcoder-14B-Preview
在 16K 到 32K 的上下文上進行訓練,在 LiveCodeBench(v5)上的準確率從 54% 提高到 58%。當在 64K 上下文下進行評估時,DeepCoder-14B-Preview
成功地推廣到更長的上下文,準確率達到 60.6%。
由於採用了 DAPO 的超長過濾技術,DeepCoder 在長上下文上的泛化能力優於基礎蒸餾模型。然而,當最大長度限制為 16K 時,模型的長響應通常會被截斷,這可能會降低其得分。
模型 |
16K |
32K |
64K |
DeepCoder-14B-Preview |
45.6 |
57.9 |
60.6 |
DeepSeek-R1-Distill-Qwen-14B |
50.2 |
53.0 |
53.0 |
評估
我們在多個編碼基準測試中對 Deepcoder-1.5B-Preview
進行了評估,包括 LiveCodeBench(LCBv5)、Codeforces 和 HumanEval+。
模型 |
LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日) |
Codeforces 評級 |
Codeforces 百分位數 |
HumanEval+ |
DeepCoder-1.5B-Preview |
25.1 |
963 |
28.5 |
73.0 |
Deepseek-R1-Distill-Qwen-1.5B |
16.9 |
615 |
1.9 |
58.3 |
部署 DeepCoder
我們的模型可以使用以下流行的高性能推理系統進行服務:
- vLLM
- Hugging Face Text Generation Inference(TGI)
- SGLang
- TensorRT-LLM
所有這些系統都支持 OpenAI Chat Completions API 格式。
📄 許可證
本項目採用 MIT 許可證發佈,這體現了我們對開放和可訪問的人工智能開發的承諾。我們相信通過免費提供我們的工作,讓任何人都可以使用、修改和擴展,能夠推動人工智能技術的普及。這種寬鬆的許可證確保了全球的研究人員、開發人員和愛好者可以無限制地利用和擴展我們的工作,促進人工智能社區的創新和合作。
致謝
引用
@misc{deepcoder2025,
title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion Blog},
year={2025}
}