🚀 DeepCoder-1.5B-Preview
DeepCoder-1.5B-Preview 是一款代码推理大语言模型(LLM),它基于分布式强化学习(RL)对 DeepSeek-R1-Distilled-Qwen-1.5B 进行微调,以支持长上下文推理。
🚀 快速开始
文档中未提及快速开始的相关内容,若有需求可参考后续模型使用及训练的相关介绍。
✨ 主要特性
- 长上下文支持:通过分布式强化学习,能够处理较长的上下文长度。
- 数据丰富:使用了包含约 24K 个独特问题 - 测试对的训练数据集。
- 训练方法改进:采用改进版的 GRPO(GRPO+)算法和迭代上下文延长技术,实现更稳定的训练和更好的长上下文泛化能力。
📦 安装指南
文档未提供具体安装命令,暂不展示安装指南。
💻 使用示例
文档未提供代码示例,暂不展示使用示例。
📚 详细文档
DeepCoder 概述
DeepCoder-1.5B-Preview 是从 DeepSeek-R1-Distilled-Qwen-1.5B 微调而来的代码推理大语言模型,利用分布式强化学习扩展到长上下文长度。
数据
我们的训练数据集包含约 24K 个独特的问题 - 测试对,这些数据来自以下来源:
- Taco-Verified
- PrimeIntellect SYNTHETIC-1
- LiveCodeBench v5(2023 年 5 月 1 日 - 2024 年 7 月 31 日)
训练方法
GRPO+
我们结合 DAPO 的见解对原始的 GRPO 算法进行了改进,以实现更稳定的训练:
- 离线难度过滤:DAPO 使用在线动态采样,在运行时丢弃完全正确和完全错误的样本。虽然这有助于保持更稳定的有效批量大小,但由于拒绝采样会引入显著的运行时开销。相反,我们对一部分编码问题进行离线难度过滤,以确保训练数据集保持在合适的难度范围内。
- 无熵损失:我们观察到包含熵损失项通常会导致不稳定性,熵呈指数增长并最终导致训练崩溃。为了缓解这个问题,我们完全消除了熵损失。
- 无 KL 损失:消除 KL 损失可以防止大语言模型停留在原始监督微调(SFT)模型的信任区域内。这种去除也消除了为参考策略计算对数概率的需要,从而加速了训练。
- 超长过滤(来自 DAPO):为了保留长上下文推理能力,我们对截断序列的损失进行掩码处理。这种技术使 DeepCoder 即使在 32K 上下文下训练,也能推广到 64K 上下文的推理。
- 上限裁剪(来自 DAPO):通过增加 GRPO/PPO 替代损失的上限,我们鼓励更多的探索和更稳定的熵。
迭代上下文延长
我们最初的 Deepscaler-1.5B-Preview
将长上下文训练从 8K 扩展到 16K 再到 24K,在 AIME 上分别达到了 33%、38% 和 43% 的准确率。同样,Deepcoder-14B-Preview
在 16K 到 32K 的上下文上进行训练,在 LiveCodeBench(v5)上达到了 54% 到 58% 的准确率。DeepCoder-14B-Preview
在 64K 上下文评估时成功推广到更长的上下文,达到了 60.6% 的准确率。
由于采用了 DAPO 的超长过滤技术,DeepCoder 比基础蒸馏模型在长上下文上具有更好的泛化能力。然而,当最大长度限制为 16K 时,其较长的响应通常会被截断,这可能会降低其得分。
模型 |
16K |
32K |
64K |
DeepCoder-14B-Preview |
45.6 |
57.9 |
60.6 |
DeepSeek-R1-Distill-Qwen-14B |
50.2 |
53.0 |
53.0 |
更多关于训练方法的详细描述可以在我们的 博客文章 中找到。
评估
我们在多个编码基准测试中对 Deepcoder-1.5B-Preview
进行了评估,包括 LiveCodeBench(LCBv5)、Codeforces 和 HumanEval+。
模型 |
LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日) |
Codeforces 评分 |
Codeforces 百分位数 |
HumanEval+ |
DeepCoder-1.5B-Preview |
25.1 |
963 |
28.5 |
73.0 |
Deepseek-R1-Distill-Qwen-1.5B |
16.9 |
615 |
1.9 |
58.3 |
模型服务
我们的模型可以使用以下流行的高性能推理系统进行服务:
- vLLM
- Hugging Face 文本生成推理(TGI)
- SGLang
- TensorRT-LLM
所有这些系统都支持 OpenAI 聊天完成 API 格式。
🔧 技术细节
文档中关于技术细节的描述已在“训练方法”部分详细说明。
📄 许可证
本项目采用 MIT 许可证发布,体现了我们对开放和可访问的人工智能开发的承诺。我们相信通过免费提供我们的工作,让任何人都可以使用、修改和扩展,能够推动人工智能技术的普及。这种宽松的许可证确保了全球的研究人员、开发人员和爱好者可以不受限制地利用和扩展我们的工作,促进人工智能社区的创新和合作。
致谢
引用
@misc{deepcoder2025,
title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica, Tianjun Zhang},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion Blog},
year={2025}
}