DeepCoder-1.5B-Preview-exl2_4.65bpw開源代碼推理模型

首頁

Deepcoder 1.5B Preview Exl2 4.65bpw

由async0x42開發

基於DeepSeek-R1-Distilled-Qwen-1.5B微調的代碼推理大模型，採用分佈式強化學習技術擴展長上下文處理能力

大型語言模型

Transformers

英語開源協議:MIT #長代碼推理 #強化學習優化 #編程競賽級

下載量 14

發布時間 : 4/9/2025

模型概述

DeepCoder是一個專注於代碼生成和推理的大語言模型，通過強化學習技術優化了長上下文處理能力，適用於編程輔助和代碼生成任務。

模型特點

強化學習優化

採用改進版GRPO算法(GRPO+)與迭代式上下文擴展技術，提升訓練穩定性

長上下文處理

支持64K上下文長度，在長代碼生成任務中表現優異

高性能代碼生成

在LiveCodeBench、Codeforces等編程基準測試中表現優於基礎模型

模型能力

代碼生成

編程問題解答

代碼補全

算法實現

使用案例

編程輔助

競賽編程

解決Codeforces等編程競賽題目

Codeforces評分963，百分位28.5%

面試準備

生成HumanEval+等編程面試題的解決方案

HumanEval+得分73.0

教育

編程學習

為學習者提供代碼示例和解釋

🚀 DeepCoder-1.5B-Preview

DeepCoder-1.5B-Preview 是一款代碼推理大語言模型（LLM），它基於分佈式強化學習（RL）對 DeepSeek-R1-Distilled-Qwen-1.5B 進行微調，以支持長上下文推理。

🚀 快速開始

文檔中未提及快速開始的相關內容，若有需求可參考後續模型使用及訓練的相關介紹。

✨ 主要特性

長上下文支持：通過分佈式強化學習，能夠處理較長的上下文長度。
數據豐富：使用了包含約 24K 個獨特問題 - 測試對的訓練數據集。
訓練方法改進：採用改進版的 GRPO（GRPO+）算法和迭代上下文延長技術，實現更穩定的訓練和更好的長上下文泛化能力。

📦 安裝指南

文檔未提供具體安裝命令，暫不展示安裝指南。

💻 使用示例

文檔未提供代碼示例，暫不展示使用示例。

📚 詳細文檔

DeepCoder 概述

DeepCoder-1.5B-Preview 是從 DeepSeek-R1-Distilled-Qwen-1.5B 微調而來的代碼推理大語言模型，利用分佈式強化學習擴展到長上下文長度。

數據

我們的訓練數據集包含約 24K 個獨特的問題 - 測試對，這些數據來自以下來源：

Taco-Verified
PrimeIntellect SYNTHETIC-1
LiveCodeBench v5（2023 年 5 月 1 日 - 2024 年 7 月 31 日）

訓練方法

GRPO+

我們結合 DAPO 的見解對原始的 GRPO 算法進行了改進，以實現更穩定的訓練：

離線難度過濾：DAPO 使用在線動態採樣，在運行時丟棄完全正確和完全錯誤的樣本。雖然這有助於保持更穩定的有效批量大小，但由於拒絕採樣會引入顯著的運行時開銷。相反，我們對一部分編碼問題進行離線難度過濾，以確保訓練數據集保持在合適的難度範圍內。
無熵損失：我們觀察到包含熵損失項通常會導致不穩定性，熵呈指數增長並最終導致訓練崩潰。為了緩解這個問題，我們完全消除了熵損失。
無 KL 損失：消除 KL 損失可以防止大語言模型停留在原始監督微調（SFT）模型的信任區域內。這種去除也消除了為參考策略計算對數概率的需要，從而加速了訓練。
超長過濾（來自 DAPO）：為了保留長上下文推理能力，我們對截斷序列的損失進行掩碼處理。這種技術使 DeepCoder 即使在 32K 上下文下訓練，也能推廣到 64K 上下文的推理。
上限裁剪（來自 DAPO）：通過增加 GRPO/PPO 替代損失的上限，我們鼓勵更多的探索和更穩定的熵。

迭代上下文延長

我們最初的 Deepscaler-1.5B-Preview 將長上下文訓練從 8K 擴展到 16K 再到 24K，在 AIME 上分別達到了 33%、38% 和 43% 的準確率。同樣，Deepcoder-14B-Preview 在 16K 到 32K 的上下文上進行訓練，在 LiveCodeBench（v5）上達到了 54% 到 58% 的準確率。DeepCoder-14B-Preview 在 64K 上下文評估時成功推廣到更長的上下文，達到了 60.6% 的準確率。

由於採用了 DAPO 的超長過濾技術，DeepCoder 比基礎蒸餾模型在長上下文上具有更好的泛化能力。然而，當最大長度限制為 16K 時，其較長的響應通常會被截斷，這可能會降低其得分。

模型	16K	32K	64K
DeepCoder-14B-Preview	45.6	57.9	60.6
DeepSeek-R1-Distill-Qwen-14B	50.2	53.0	53.0

更多關於訓練方法的詳細描述可以在我們的博客文章中找到。

評估

我們在多個編碼基準測試中對 Deepcoder-1.5B-Preview 進行了評估，包括 LiveCodeBench（LCBv5）、Codeforces 和 HumanEval+。

模型	LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日)	Codeforces 評分	Codeforces 百分位數	HumanEval+
DeepCoder-1.5B-Preview	25.1	963	28.5	73.0
Deepseek-R1-Distill-Qwen-1.5B	16.9	615	1.9	58.3

模型服務

我們的模型可以使用以下流行的高性能推理系統進行服務：

vLLM
Hugging Face 文本生成推理（TGI）
SGLang
TensorRT-LLM

所有這些系統都支持 OpenAI 聊天完成 API 格式。

🔧 技術細節

文檔中關於技術細節的描述已在“訓練方法”部分詳細說明。

📄 許可證

本項目採用 MIT 許可證發佈，體現了我們對開放和可訪問的人工智能開發的承諾。我們相信通過免費提供我們的工作，讓任何人都可以使用、修改和擴展，能夠推動人工智能技術的普及。這種寬鬆的許可證確保了全球的研究人員、開發人員和愛好者可以不受限制地利用和擴展我們的工作，促進人工智能社區的創新和合作。

致謝

我們的訓練實驗由我們對 Verl（一個開源的訓練後庫）進行大量修改後的版本提供支持。
我們的模型基於 DeepSeek-R1-Distill-Qwen-1.5B 進行訓練。
我們的工作是伯克利天空計算實驗室和伯克利人工智能研究的一部分。

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica, Tianjun Zhang},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}