DeepCoder-1.5B-Preview-exl2_4.65bpw开源代码推理模型

首页

Deepcoder 1.5B Preview Exl2 4.65bpw

由 async0x42 开发

基于DeepSeek-R1-Distilled-Qwen-1.5B微调的代码推理大模型，采用分布式强化学习技术扩展长上下文处理能力

大型语言模型

Transformers

英语开源协议:MIT #长代码推理 #强化学习优化 #编程竞赛级

下载量 14

发布时间 : 4/9/2025

模型简介

DeepCoder是一个专注于代码生成和推理的大语言模型，通过强化学习技术优化了长上下文处理能力，适用于编程辅助和代码生成任务。

模型特点

强化学习优化

采用改进版GRPO算法(GRPO+)与迭代式上下文扩展技术，提升训练稳定性

长上下文处理

支持64K上下文长度，在长代码生成任务中表现优异

高性能代码生成

在LiveCodeBench、Codeforces等编程基准测试中表现优于基础模型

模型能力

代码生成

编程问题解答

代码补全

算法实现

使用案例

编程辅助

竞赛编程

解决Codeforces等编程竞赛题目

Codeforces评分963，百分位28.5%

面试准备

生成HumanEval+等编程面试题的解决方案

HumanEval+得分73.0

教育

编程学习

为学习者提供代码示例和解释

🚀 DeepCoder-1.5B-Preview

DeepCoder-1.5B-Preview 是一款代码推理大语言模型（LLM），它基于分布式强化学习（RL）对 DeepSeek-R1-Distilled-Qwen-1.5B 进行微调，以支持长上下文推理。

🚀 快速开始

文档中未提及快速开始的相关内容，若有需求可参考后续模型使用及训练的相关介绍。

✨ 主要特性

长上下文支持：通过分布式强化学习，能够处理较长的上下文长度。
数据丰富：使用了包含约 24K 个独特问题 - 测试对的训练数据集。
训练方法改进：采用改进版的 GRPO（GRPO+）算法和迭代上下文延长技术，实现更稳定的训练和更好的长上下文泛化能力。

📦 安装指南

文档未提供具体安装命令，暂不展示安装指南。

💻 使用示例

文档未提供代码示例，暂不展示使用示例。

📚 详细文档

DeepCoder 概述

DeepCoder-1.5B-Preview 是从 DeepSeek-R1-Distilled-Qwen-1.5B 微调而来的代码推理大语言模型，利用分布式强化学习扩展到长上下文长度。

数据

我们的训练数据集包含约 24K 个独特的问题 - 测试对，这些数据来自以下来源：

Taco-Verified
PrimeIntellect SYNTHETIC-1
LiveCodeBench v5（2023 年 5 月 1 日 - 2024 年 7 月 31 日）

训练方法

GRPO+

我们结合 DAPO 的见解对原始的 GRPO 算法进行了改进，以实现更稳定的训练：

离线难度过滤：DAPO 使用在线动态采样，在运行时丢弃完全正确和完全错误的样本。虽然这有助于保持更稳定的有效批量大小，但由于拒绝采样会引入显著的运行时开销。相反，我们对一部分编码问题进行离线难度过滤，以确保训练数据集保持在合适的难度范围内。
无熵损失：我们观察到包含熵损失项通常会导致不稳定性，熵呈指数增长并最终导致训练崩溃。为了缓解这个问题，我们完全消除了熵损失。
无 KL 损失：消除 KL 损失可以防止大语言模型停留在原始监督微调（SFT）模型的信任区域内。这种去除也消除了为参考策略计算对数概率的需要，从而加速了训练。
超长过滤（来自 DAPO）：为了保留长上下文推理能力，我们对截断序列的损失进行掩码处理。这种技术使 DeepCoder 即使在 32K 上下文下训练，也能推广到 64K 上下文的推理。
上限裁剪（来自 DAPO）：通过增加 GRPO/PPO 替代损失的上限，我们鼓励更多的探索和更稳定的熵。

迭代上下文延长

我们最初的 Deepscaler-1.5B-Preview 将长上下文训练从 8K 扩展到 16K 再到 24K，在 AIME 上分别达到了 33%、38% 和 43% 的准确率。同样，Deepcoder-14B-Preview 在 16K 到 32K 的上下文上进行训练，在 LiveCodeBench（v5）上达到了 54% 到 58% 的准确率。DeepCoder-14B-Preview 在 64K 上下文评估时成功推广到更长的上下文，达到了 60.6% 的准确率。

由于采用了 DAPO 的超长过滤技术，DeepCoder 比基础蒸馏模型在长上下文上具有更好的泛化能力。然而，当最大长度限制为 16K 时，其较长的响应通常会被截断，这可能会降低其得分。

模型	16K	32K	64K
DeepCoder-14B-Preview	45.6	57.9	60.6
DeepSeek-R1-Distill-Qwen-14B	50.2	53.0	53.0

更多关于训练方法的详细描述可以在我们的博客文章中找到。

评估

我们在多个编码基准测试中对 Deepcoder-1.5B-Preview 进行了评估，包括 LiveCodeBench（LCBv5）、Codeforces 和 HumanEval+。

模型	LCB (v5)(2024 年 8 月 1 日 - 2025 年 2 月 1 日)	Codeforces 评分	Codeforces 百分位数	HumanEval+
DeepCoder-1.5B-Preview	25.1	963	28.5	73.0
Deepseek-R1-Distill-Qwen-1.5B	16.9	615	1.9	58.3

模型服务

我们的模型可以使用以下流行的高性能推理系统进行服务：

vLLM
Hugging Face 文本生成推理（TGI）
SGLang
TensorRT-LLM

所有这些系统都支持 OpenAI 聊天完成 API 格式。

🔧 技术细节

文档中关于技术细节的描述已在“训练方法”部分详细说明。

📄 许可证

本项目采用 MIT 许可证发布，体现了我们对开放和可访问的人工智能开发的承诺。我们相信通过免费提供我们的工作，让任何人都可以使用、修改和扩展，能够推动人工智能技术的普及。这种宽松的许可证确保了全球的研究人员、开发人员和爱好者可以不受限制地利用和扩展我们的工作，促进人工智能社区的创新和合作。

致谢

我们的训练实验由我们对 Verl（一个开源的训练后库）进行大量修改后的版本提供支持。
我们的模型基于 DeepSeek-R1-Distill-Qwen-1.5B 进行训练。
我们的工作是伯克利天空计算实验室和伯克利人工智能研究的一部分。

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica, Tianjun Zhang},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}