D

Deepcoder 14B Preview Exl2

由 cgus 开发
DeepCoder-14B-Preview是基于DeepSeek-R1-Distill-Qwen-14B开发的代码生成模型,专注于可验证编程问题的解决。
下载量 46
发布时间 : 4/10/2025

模型简介

这是一个14B参数的代码生成模型,经过量化处理,支持多种量化版本,适用于代码生成任务。

模型特点

多量化版本支持
提供4bpw至8bpw多种量化版本,适应不同硬件需求。
强化学习优化
采用强化学习技术优化模型性能,提升代码生成质量。
可验证编程问题解决
专注于解决可验证的编程问题,提高代码正确性。

模型能力

代码生成
编程问题解决
文本生成

使用案例

编程辅助
自动代码补全
根据上下文自动生成代码片段
提高开发效率
编程问题解答
解决特定编程问题或算法实现
提供可验证的正确代码

数据信息

训练数据集由大约 24K 个独特的问题 - 测试对组成,这些数据来自以下来源:

  • Taco - Verified
  • PrimeIntellect SYNTHETIC - 1
  • LiveCodeBench v5 (5/1/23 - 7/31/24)

训练方法

训练方法依赖于改进版的 GRPO (GRPO+) 和迭代上下文延长技术,这些技术在 DeepScaleR 中被引入。

GRPO+

通过借鉴 DAPO 的见解对原始 GRPO 算法进行增强,以实现更稳定的训练:

  • 离线难度过滤:DAPO 使用在线动态采样,即时丢弃完全正确和完全错误的样本。虽然这有助于保持更稳定的有效批量大小,但由于拒绝采样会引入显著的运行时开销。因此,我们对一部分编码问题进行离线难度过滤,以确保训练数据集保持在合适的难度范围内。
  • 无熵损失:观察发现,包含熵损失项通常会导致训练不稳定,熵呈指数增长并最终导致训练崩溃。为了缓解这个问题,我们完全消除了熵损失。
  • 无 KL 损失:消除 KL 损失可以防止大语言模型停留在原始 SFT 模型的信任区域内。这种去除还避免了为参考策略计算对数概率的需要,从而加速了训练。
  • 超长过滤(来自 DAPO):为了保留长上下文推理能力,我们对截断序列的损失进行掩码处理。这种技术使 DeepCoder 能够在 64K 上下文推理中进行泛化,尽管它是在 32K 上下文下进行训练的。
  • 高值裁剪(来自 DAPO):通过增加 GRPO/PPO 替代损失的上限,我们鼓励更多的探索和更稳定的熵。

迭代上下文延长

原始的 Deepscaler - 1.5B - Preview 从 8K 到 16K 再到 24K 进行长上下文训练,在 AIME 上分别达到了 33%、38% 和 43% 的准确率。同样,Deepcoder - 14B - Preview 在 16K 到 32K 上进行训练,在 LiveCodeBench (v5) 上达到了 54% 到 58% 的准确率。当在 64K 上下文下进行评估时,DeepCoder - 14B - Preview 成功地泛化到更长的上下文,达到了 60.6% 的准确率。

由于采用了 DAPO 的超长过滤技术,DeepCoder 比基础蒸馏模型在长上下文上具有更好的泛化能力。然而,当最大长度限制为 16K 时,其较长的响应通常会被截断,这可能会降低其得分。

模型 16K 32K 64K
DeepCoder - 14B - Preview 45.6 57.9 60.6
DeepSeek - R1 - Distill - Qwen - 14B 50.2 53.0 53.0

更详细的训练方法描述可以在我们的 博客文章 中找到。

评估结果

我们在各种编码基准测试中对 Deepcoder - 14B - Preview 进行了评估,包括 LiveCodeBench (LCBv5)、Codeforces 和 HumanEval+。

模型 LCB (v5)(8/1/24 - 2/1/25) Codeforces Rating Codeforces Percentile HumanEval+
DeepCoder - 14B - Preview (我们的模型) 60.6 1936 95.3 92.6
DeepSeek - R1 - Distill - Qwen - 14B 53.0 1791 92.7 92.0
O1 - 2024 - 12 - 17 (Low) 59.5 1991 96.1 90.8
O3 - Mini - 2025 - 1 - 31 (Low) 60.9 1918 94.9 92.6
O1 - Preview 42.7 1658 88.5 89
Deepseek - R1 62.8 1948 95.4 92.6
Llama - 4 - Behemoth 49.4 - - -

使用建议

我们的使用建议与 R1 和 R1 Distill 系列相似:

  1. 避免添加系统提示;所有指令应包含在用户提示中。
  2. temperature = 0.6
  3. top_p = 0.95
  4. 该模型在 max_tokens 至少设置为 64000 时表现最佳。

🔧 技术细节

文档未提供足够详细的技术实现细节,可参考相关论文和代码仓库获取更多信息。

📄 许可证

本项目采用 MIT 许可证发布,这体现了我们对开放和可访问的人工智能开发的承诺。我们相信通过免费提供我们的工作,让任何人都可以使用、修改和扩展,从而实现人工智能技术的民主化。这种宽松的许可证确保了全球的研究人员、开发者和爱好者可以无限制地利用和扩展我们的工作,促进人工智能社区的创新和合作。

致谢

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase