DeepCoder-1.5B-Preview開源代碼推理模型 - 處理長上下文，免費部署超實用

首頁

Deepcoder 1.5B Preview AWQ

由adriabama06開發

DeepCoder-1.5B-Preview是一款基於代碼推理的大型語言模型，通過分佈式強化學習從DeepSeek-R1-Distilled-Qwen-1.5B微調而來，能夠處理更長的上下文長度。

大型語言模型

Transformers

英語開源協議:MIT #強化學習微調 #長上下文編程 #代碼推理優化

下載量 72

發布時間 : 4/13/2025

模型概述

DeepCoder-1.5B-Preview是一款專注於代碼推理的大型語言模型，通過改進的GRPO+訓練方法和迭代上下文延長技術，提升了長上下文處理能力。

模型特點

強化學習微調

採用改進版GRPO+算法進行微調，結合DAPO的見解實現更穩定的訓練

長上下文處理

通過迭代上下文延長技術，支持64K上下文長度的推理

4位量化

採用AWQ 4位128g量化技術，提高推理效率

開放許可

採用MIT許可證，促進AI技術的民主化

模型能力

代碼生成

長上下文理解

編程問題解答

代碼推理

使用案例

編程輔助

編程問題解答

解決各類編程競賽和麵試中的算法問題

在LiveCodeBench(v5)上達到25.1%準確率

代碼生成

根據自然語言描述生成功能代碼

HumanEval+得分73.0

教育

編程學習輔助

幫助學生理解和解決編程練習

🚀 DeepCoder-1.5B-Preview (AWQ 4bit 128g)

🚀 本項目致力於讓大語言模型的強化學習（RLLM）更加普及 🌟

🚀 快速開始

本項目暫未提供快速開始的相關內容，你可以參考後續詳細文檔進行操作。

✨ 主要特性

代碼推理能力：DeepCoder-1.5B-Preview 是一個代碼推理大語言模型，通過分佈式強化學習（RL）從 DeepSeek-R1-Distilled-Qwen-1.5B 微調而來，能夠處理長上下文的代碼推理任務。
改進的訓練算法：採用改進版的 GRPO（GRPO+）算法，結合迭代上下文擴展技術，提高了模型的訓練穩定性和長上下文推理能力。
多系統支持：模型可以使用流行的高性能推理系統進行服務，如 vLLM、Hugging Face Text Generation Inference（TGI）、SGLang 和 TensorRT-LLM，並且支持 OpenAI Chat Completions API 格式。

📚 詳細文檔

DeepCoder 概述

DeepCoder-1.5B-Preview 是一個代碼推理大語言模型，它基於 DeepSeek-R1-Distilled-Qwen-1.5B，通過分佈式強化學習（RL）進行微調，以處理長上下文的代碼推理任務。

數據

我們的訓練數據集包含約 24K 個獨特的問題 - 測試對，這些數據來自以下來源：

Taco-Verified
PrimeIntellect SYNTHETIC-1
LiveCodeBench v5（2023 年 5 月 1 日 - 2024 年 7 月 31 日）

訓練方法

GRPO+

我們通過借鑑 DAPO 的經驗，對原始的 GRPO 算法進行了改進，以實現更穩定的訓練：

離線難度過濾：DAPO 使用在線動態採樣，會即時丟棄完全正確和完全錯誤的樣本。雖然這有助於保持更穩定的有效批量大小，但由於拒絕採樣會帶來顯著的運行時開銷。因此，我們對一部分編碼問題進行離線難度過濾，以確保訓練數據集的難度保持在合適的範圍內。
無熵損失：我們發現包含熵損失項通常會導致訓練不穩定，熵會呈指數級增長，最終導致訓練崩潰。為了緩解這個問題，我們完全去除了熵損失。
無 KL 損失：去除 KL 損失可以防止大語言模型侷限於原始 SFT 模型的信任區域內。同時，這也避免了為參考策略計算對數概率的需要，從而加速了訓練。
超長過濾（來自 DAPO）：為了保留長上下文推理能力，我們對截斷序列的損失進行掩碼處理。這種技術使 DeepCoder 能夠在 32K 上下文的訓練下，推廣到 64K 上下文的推理。
高截斷（來自 DAPO）：通過提高 GRPO/PPO 替代損失的上限，我們鼓勵更多的探索和更穩定的熵。

迭代上下文擴展

我們最初的 Deepscaler-1.5B-Preview 將長上下文訓練從 8K 擴展到 16K 再到 24K，在 AIME 上的準確率分別達到 33%、38% 和 43%。同樣，Deepcoder-14B-Preview 在 16K 到 32K 的上下文上進行訓練，在 LiveCodeBench（v5）上的準確率從 54% 提高到 58%。當在 64K 上下文下進行評估時，DeepCoder-14B-Preview 成功地推廣到更長的上下文，準確率達到 60.6%。

由於採用了 DAPO 的超長過濾技術，DeepCoder 在長上下文上的泛化能力優於基礎蒸餾模型。然而，當最大長度限制為 16K 時，模型的長響應通常會被截斷，這可能會降低其得分。

模型	16K	32K	64K
DeepCoder-14B-Preview	45.6	57.9	60.6
DeepSeek-R1-Distill-Qwen-14B	50.2	53.0	53.0

評估

我們在多個編碼基準測試中對 Deepcoder-1.5B-Preview 進行了評估，包括 LiveCodeBench（LCBv5）、Codeforces 和 HumanEval+。

模型	LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日)	Codeforces 評級	Codeforces 百分位數	HumanEval+
DeepCoder-1.5B-Preview	25.1	963	28.5	73.0
Deepseek-R1-Distill-Qwen-1.5B	16.9	615	1.9	58.3

部署 DeepCoder

我們的模型可以使用以下流行的高性能推理系統進行服務：

vLLM
Hugging Face Text Generation Inference（TGI）
SGLang
TensorRT-LLM

所有這些系統都支持 OpenAI Chat Completions API 格式。

📄 許可證

本項目採用 MIT 許可證發佈，這體現了我們對開放和可訪問的人工智能開發的承諾。我們相信通過免費提供我們的工作，讓任何人都可以使用、修改和擴展，能夠推動人工智能技術的普及。這種寬鬆的許可證確保了全球的研究人員、開發人員和愛好者可以無限制地利用和擴展我們的工作，促進人工智能社區的創新和合作。

致謝

我們的訓練實驗由我們對 Verl 的大幅修改版本提供支持，Verl 是一個開源的訓練後處理庫。
值得注意的是，我們使用 verl pipeline 對 1.5B 模型進行訓練，這是對原始 Verl 的擴展。
我們的模型基於 DeepSeek-R1-Distill-Qwen-1.5B 進行訓練。
我們的工作是 Berkeley Sky Computing Lab 和 Berkeley AI Research 的一部分。

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}