D

Deepcoder 14B Preview Exl2

由cgus開發
DeepCoder-14B-Preview是基於DeepSeek-R1-Distill-Qwen-14B開發的代碼生成模型,專注於可驗證編程問題的解決。
下載量 46
發布時間 : 4/10/2025

模型概述

這是一個14B參數的代碼生成模型,經過量化處理,支持多種量化版本,適用於代碼生成任務。

模型特點

多量化版本支持
提供4bpw至8bpw多種量化版本,適應不同硬件需求。
強化學習優化
採用強化學習技術優化模型性能,提升代碼生成質量。
可驗證編程問題解決
專注於解決可驗證的編程問題,提高代碼正確性。

模型能力

代碼生成
編程問題解決
文本生成

使用案例

編程輔助
自動代碼補全
根據上下文自動生成代碼片段
提高開發效率
編程問題解答
解決特定編程問題或算法實現
提供可驗證的正確代碼

數據信息

訓練數據集由大約 24K 個獨特的問題 - 測試對組成,這些數據來自以下來源:

  • Taco - Verified
  • PrimeIntellect SYNTHETIC - 1
  • LiveCodeBench v5 (5/1/23 - 7/31/24)

訓練方法

訓練方法依賴於改進版的 GRPO (GRPO+) 和迭代上下文延長技術,這些技術在 DeepScaleR 中被引入。

GRPO+

通過借鑑 DAPO 的見解對原始 GRPO 算法進行增強,以實現更穩定的訓練:

  • 離線難度過濾:DAPO 使用在線動態採樣,即時丟棄完全正確和完全錯誤的樣本。雖然這有助於保持更穩定的有效批量大小,但由於拒絕採樣會引入顯著的運行時開銷。因此,我們對一部分編碼問題進行離線難度過濾,以確保訓練數據集保持在合適的難度範圍內。
  • 無熵損失:觀察發現,包含熵損失項通常會導致訓練不穩定,熵呈指數增長並最終導致訓練崩潰。為了緩解這個問題,我們完全消除了熵損失。
  • 無 KL 損失:消除 KL 損失可以防止大語言模型停留在原始 SFT 模型的信任區域內。這種去除還避免了為參考策略計算對數概率的需要,從而加速了訓練。
  • 超長過濾(來自 DAPO):為了保留長上下文推理能力,我們對截斷序列的損失進行掩碼處理。這種技術使 DeepCoder 能夠在 64K 上下文推理中進行泛化,儘管它是在 32K 上下文下進行訓練的。
  • 高值裁剪(來自 DAPO):通過增加 GRPO/PPO 替代損失的上限,我們鼓勵更多的探索和更穩定的熵。

迭代上下文延長

原始的 Deepscaler - 1.5B - Preview 從 8K 到 16K 再到 24K 進行長上下文訓練,在 AIME 上分別達到了 33%、38% 和 43% 的準確率。同樣,Deepcoder - 14B - Preview 在 16K 到 32K 上進行訓練,在 LiveCodeBench (v5) 上達到了 54% 到 58% 的準確率。當在 64K 上下文下進行評估時,DeepCoder - 14B - Preview 成功地泛化到更長的上下文,達到了 60.6% 的準確率。

由於採用了 DAPO 的超長過濾技術,DeepCoder 比基礎蒸餾模型在長上下文上具有更好的泛化能力。然而,當最大長度限制為 16K 時,其較長的響應通常會被截斷,這可能會降低其得分。

模型 16K 32K 64K
DeepCoder - 14B - Preview 45.6 57.9 60.6
DeepSeek - R1 - Distill - Qwen - 14B 50.2 53.0 53.0

更詳細的訓練方法描述可以在我們的 博客文章 中找到。

評估結果

我們在各種編碼基準測試中對 Deepcoder - 14B - Preview 進行了評估,包括 LiveCodeBench (LCBv5)、Codeforces 和 HumanEval+。

模型 LCB (v5)(8/1/24 - 2/1/25) Codeforces Rating Codeforces Percentile HumanEval+
DeepCoder - 14B - Preview (我們的模型) 60.6 1936 95.3 92.6
DeepSeek - R1 - Distill - Qwen - 14B 53.0 1791 92.7 92.0
O1 - 2024 - 12 - 17 (Low) 59.5 1991 96.1 90.8
O3 - Mini - 2025 - 1 - 31 (Low) 60.9 1918 94.9 92.6
O1 - Preview 42.7 1658 88.5 89
Deepseek - R1 62.8 1948 95.4 92.6
Llama - 4 - Behemoth 49.4 - - -

使用建議

我們的使用建議與 R1 和 R1 Distill 系列相似:

  1. 避免添加系統提示;所有指令應包含在用戶提示中。
  2. temperature = 0.6
  3. top_p = 0.95
  4. 該模型在 max_tokens 至少設置為 64000 時表現最佳。

🔧 技術細節

文檔未提供足夠詳細的技術實現細節,可參考相關論文和代碼倉庫獲取更多信息。

📄 許可證

本項目採用 MIT 許可證發佈,這體現了我們對開放和可訪問的人工智能開發的承諾。我們相信通過免費提供我們的工作,讓任何人都可以使用、修改和擴展,從而實現人工智能技術的民主化。這種寬鬆的許可證確保了全球的研究人員、開發者和愛好者可以無限制地利用和擴展我們的工作,促進人工智能社區的創新和合作。

致謝

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase