DeepCoder-14B-Preview-exl2開源代碼生成模型 - 免費部署解決可驗證編程問題

首頁

Deepcoder 14B Preview Exl2

由cgus開發

DeepCoder-14B-Preview是基於DeepSeek-R1-Distill-Qwen-14B開發的代碼生成模型，專注於可驗證編程問題的解決。

大型語言模型英語#代碼生成 #強化學習優化 #多量化版本

下載量 46

發布時間 : 4/10/2025

模型概述

這是一個14B參數的代碼生成模型，經過量化處理，支持多種量化版本，適用於代碼生成任務。

模型特點

多量化版本支持

提供4bpw至8bpw多種量化版本，適應不同硬件需求。

強化學習優化

採用強化學習技術優化模型性能，提升代碼生成質量。

可驗證編程問題解決

專注於解決可驗證的編程問題，提高代碼正確性。

模型能力

代碼生成

編程問題解決

文本生成

使用案例

編程輔助

自動代碼補全

根據上下文自動生成代碼片段

提高開發效率

編程問題解答

解決特定編程問題或算法實現

提供可驗證的正確代碼

數據信息

訓練數據集由大約 24K 個獨特的問題 - 測試對組成，這些數據來自以下來源：

Taco - Verified
PrimeIntellect SYNTHETIC - 1
LiveCodeBench v5 (5/1/23 - 7/31/24)

訓練方法

訓練方法依賴於改進版的 GRPO (GRPO+) 和迭代上下文延長技術，這些技術在 DeepScaleR 中被引入。

GRPO+

通過借鑑 DAPO 的見解對原始 GRPO 算法進行增強，以實現更穩定的訓練：

離線難度過濾：DAPO 使用在線動態採樣，即時丟棄完全正確和完全錯誤的樣本。雖然這有助於保持更穩定的有效批量大小，但由於拒絕採樣會引入顯著的運行時開銷。因此，我們對一部分編碼問題進行離線難度過濾，以確保訓練數據集保持在合適的難度範圍內。
無熵損失：觀察發現，包含熵損失項通常會導致訓練不穩定，熵呈指數增長並最終導致訓練崩潰。為了緩解這個問題，我們完全消除了熵損失。
無 KL 損失：消除 KL 損失可以防止大語言模型停留在原始 SFT 模型的信任區域內。這種去除還避免了為參考策略計算對數概率的需要，從而加速了訓練。
超長過濾（來自 DAPO）：為了保留長上下文推理能力，我們對截斷序列的損失進行掩碼處理。這種技術使 DeepCoder 能夠在 64K 上下文推理中進行泛化，儘管它是在 32K 上下文下進行訓練的。
高值裁剪（來自 DAPO）：通過增加 GRPO/PPO 替代損失的上限，我們鼓勵更多的探索和更穩定的熵。

迭代上下文延長

原始的 Deepscaler - 1.5B - Preview 從 8K 到 16K 再到 24K 進行長上下文訓練，在 AIME 上分別達到了 33%、38% 和 43% 的準確率。同樣，Deepcoder - 14B - Preview 在 16K 到 32K 上進行訓練，在 LiveCodeBench (v5) 上達到了 54% 到 58% 的準確率。當在 64K 上下文下進行評估時，DeepCoder - 14B - Preview 成功地泛化到更長的上下文，達到了 60.6% 的準確率。

由於採用了 DAPO 的超長過濾技術，DeepCoder 比基礎蒸餾模型在長上下文上具有更好的泛化能力。然而，當最大長度限制為 16K 時，其較長的響應通常會被截斷，這可能會降低其得分。

模型	16K	32K	64K
DeepCoder - 14B - Preview	45.6	57.9	60.6
DeepSeek - R1 - Distill - Qwen - 14B	50.2	53.0	53.0

更詳細的訓練方法描述可以在我們的博客文章中找到。

評估結果

我們在各種編碼基準測試中對 Deepcoder - 14B - Preview 進行了評估，包括 LiveCodeBench (LCBv5)、Codeforces 和 HumanEval+。

模型	LCB (v5)(8/1/24 - 2/1/25)	Codeforces Rating	Codeforces Percentile	HumanEval+
DeepCoder - 14B - Preview (我們的模型)	60.6	1936	95.3	92.6
DeepSeek - R1 - Distill - Qwen - 14B	53.0	1791	92.7	92.0
O1 - 2024 - 12 - 17 (Low)	59.5	1991	96.1	90.8
O3 - Mini - 2025 - 1 - 31 (Low)	60.9	1918	94.9	92.6
O1 - Preview	42.7	1658	88.5	89
Deepseek - R1	62.8	1948	95.4	92.6
Llama - 4 - Behemoth	49.4	-	-	-

使用建議

我們的使用建議與 R1 和 R1 Distill 系列相似：

避免添加系統提示；所有指令應包含在用戶提示中。
temperature = 0.6
top_p = 0.95
該模型在 max_tokens 至少設置為 64000 時表現最佳。

🔧 技術細節

文檔未提供足夠詳細的技術實現細節，可參考相關論文和代碼倉庫獲取更多信息。

📄 許可證

本項目採用 MIT 許可證發佈，這體現了我們對開放和可訪問的人工智能開發的承諾。我們相信通過免費提供我們的工作，讓任何人都可以使用、修改和擴展，從而實現人工智能技術的民主化。這種寬鬆的許可證確保了全球的研究人員、開發者和愛好者可以無限制地利用和擴展我們的工作，促進人工智能社區的創新和合作。

致謝

我們的訓練實驗由我們對 Verl 的深度修改分支提供支持，Verl 是一個開源的訓練後處理庫。
我們的模型基於 DeepSeek - R1 - Distill - Qwen - 14B 進行訓練。
我們的工作是伯克利天空計算實驗室和伯克利人工智能研究的一部分。

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}