模型简介
模型特点
模型能力
使用案例
数据信息
训练数据集由大约 24K 个独特的问题 - 测试对组成,这些数据来自以下来源:
- Taco - Verified
- PrimeIntellect SYNTHETIC - 1
- LiveCodeBench v5 (5/1/23 - 7/31/24)
训练方法
训练方法依赖于改进版的 GRPO (GRPO+) 和迭代上下文延长技术,这些技术在 DeepScaleR 中被引入。
GRPO+
通过借鉴 DAPO 的见解对原始 GRPO 算法进行增强,以实现更稳定的训练:
- 离线难度过滤:DAPO 使用在线动态采样,即时丢弃完全正确和完全错误的样本。虽然这有助于保持更稳定的有效批量大小,但由于拒绝采样会引入显著的运行时开销。因此,我们对一部分编码问题进行离线难度过滤,以确保训练数据集保持在合适的难度范围内。
- 无熵损失:观察发现,包含熵损失项通常会导致训练不稳定,熵呈指数增长并最终导致训练崩溃。为了缓解这个问题,我们完全消除了熵损失。
- 无 KL 损失:消除 KL 损失可以防止大语言模型停留在原始 SFT 模型的信任区域内。这种去除还避免了为参考策略计算对数概率的需要,从而加速了训练。
- 超长过滤(来自 DAPO):为了保留长上下文推理能力,我们对截断序列的损失进行掩码处理。这种技术使 DeepCoder 能够在 64K 上下文推理中进行泛化,尽管它是在 32K 上下文下进行训练的。
- 高值裁剪(来自 DAPO):通过增加 GRPO/PPO 替代损失的上限,我们鼓励更多的探索和更稳定的熵。
迭代上下文延长
原始的 Deepscaler - 1.5B - Preview
从 8K 到 16K 再到 24K 进行长上下文训练,在 AIME 上分别达到了 33%、38% 和 43% 的准确率。同样,Deepcoder - 14B - Preview
在 16K 到 32K 上进行训练,在 LiveCodeBench (v5) 上达到了 54% 到 58% 的准确率。当在 64K 上下文下进行评估时,DeepCoder - 14B - Preview
成功地泛化到更长的上下文,达到了 60.6% 的准确率。
由于采用了 DAPO 的超长过滤技术,DeepCoder 比基础蒸馏模型在长上下文上具有更好的泛化能力。然而,当最大长度限制为 16K 时,其较长的响应通常会被截断,这可能会降低其得分。
模型 | 16K | 32K | 64K |
---|---|---|---|
DeepCoder - 14B - Preview | 45.6 | 57.9 | 60.6 |
DeepSeek - R1 - Distill - Qwen - 14B | 50.2 | 53.0 | 53.0 |
更详细的训练方法描述可以在我们的 博客文章 中找到。
评估结果
我们在各种编码基准测试中对 Deepcoder - 14B - Preview
进行了评估,包括 LiveCodeBench (LCBv5)、Codeforces 和 HumanEval+。
模型 | LCB (v5)(8/1/24 - 2/1/25) | Codeforces Rating | Codeforces Percentile | HumanEval+ |
---|---|---|---|---|
DeepCoder - 14B - Preview (我们的模型) | 60.6 | 1936 | 95.3 | 92.6 |
DeepSeek - R1 - Distill - Qwen - 14B | 53.0 | 1791 | 92.7 | 92.0 |
O1 - 2024 - 12 - 17 (Low) | 59.5 | 1991 | 96.1 | 90.8 |
O3 - Mini - 2025 - 1 - 31 (Low) | 60.9 | 1918 | 94.9 | 92.6 |
O1 - Preview | 42.7 | 1658 | 88.5 | 89 |
Deepseek - R1 | 62.8 | 1948 | 95.4 | 92.6 |
Llama - 4 - Behemoth | 49.4 | - | - | - |
使用建议
我们的使用建议与 R1 和 R1 Distill 系列相似:
- 避免添加系统提示;所有指令应包含在用户提示中。
temperature = 0.6
top_p = 0.95
- 该模型在
max_tokens
至少设置为64000
时表现最佳。
🔧 技术细节
文档未提供足够详细的技术实现细节,可参考相关论文和代码仓库获取更多信息。
📄 许可证
本项目采用 MIT 许可证发布,这体现了我们对开放和可访问的人工智能开发的承诺。我们相信通过免费提供我们的工作,让任何人都可以使用、修改和扩展,从而实现人工智能技术的民主化。这种宽松的许可证确保了全球的研究人员、开发者和爱好者可以无限制地利用和扩展我们的工作,促进人工智能社区的创新和合作。
致谢
- 我们的训练实验由我们对 Verl 的深度修改分支提供支持,Verl 是一个开源的训练后处理库。
- 我们的模型基于
DeepSeek - R1 - Distill - Qwen - 14B
进行训练。 - 我们的工作是 伯克利天空计算实验室 和 伯克利人工智能研究 的一部分。
引用
@misc{deepcoder2025,
title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion Blog},
year={2025}
}

