DeepCoder-14B-Preview-exl2开源代码生成模型 - 免费部署解决可验证编程问题

首页

Deepcoder 14B Preview Exl2

由 cgus 开发

DeepCoder-14B-Preview是基于DeepSeek-R1-Distill-Qwen-14B开发的代码生成模型，专注于可验证编程问题的解决。

大型语言模型英语#代码生成 #强化学习优化 #多量化版本

下载量 46

发布时间 : 4/10/2025

模型简介

这是一个14B参数的代码生成模型，经过量化处理，支持多种量化版本，适用于代码生成任务。

模型特点

多量化版本支持

提供4bpw至8bpw多种量化版本，适应不同硬件需求。

强化学习优化

采用强化学习技术优化模型性能，提升代码生成质量。

可验证编程问题解决

专注于解决可验证的编程问题，提高代码正确性。

模型能力

代码生成

编程问题解决

文本生成

使用案例

编程辅助

自动代码补全

根据上下文自动生成代码片段

提高开发效率

编程问题解答

解决特定编程问题或算法实现

提供可验证的正确代码

数据信息

训练数据集由大约 24K 个独特的问题 - 测试对组成，这些数据来自以下来源：

Taco - Verified
PrimeIntellect SYNTHETIC - 1
LiveCodeBench v5 (5/1/23 - 7/31/24)

训练方法

训练方法依赖于改进版的 GRPO (GRPO+) 和迭代上下文延长技术，这些技术在 DeepScaleR 中被引入。

GRPO+

通过借鉴 DAPO 的见解对原始 GRPO 算法进行增强，以实现更稳定的训练：

离线难度过滤：DAPO 使用在线动态采样，即时丢弃完全正确和完全错误的样本。虽然这有助于保持更稳定的有效批量大小，但由于拒绝采样会引入显著的运行时开销。因此，我们对一部分编码问题进行离线难度过滤，以确保训练数据集保持在合适的难度范围内。
无熵损失：观察发现，包含熵损失项通常会导致训练不稳定，熵呈指数增长并最终导致训练崩溃。为了缓解这个问题，我们完全消除了熵损失。
无 KL 损失：消除 KL 损失可以防止大语言模型停留在原始 SFT 模型的信任区域内。这种去除还避免了为参考策略计算对数概率的需要，从而加速了训练。
超长过滤（来自 DAPO）：为了保留长上下文推理能力，我们对截断序列的损失进行掩码处理。这种技术使 DeepCoder 能够在 64K 上下文推理中进行泛化，尽管它是在 32K 上下文下进行训练的。
高值裁剪（来自 DAPO）：通过增加 GRPO/PPO 替代损失的上限，我们鼓励更多的探索和更稳定的熵。

迭代上下文延长

原始的 Deepscaler - 1.5B - Preview 从 8K 到 16K 再到 24K 进行长上下文训练，在 AIME 上分别达到了 33%、38% 和 43% 的准确率。同样，Deepcoder - 14B - Preview 在 16K 到 32K 上进行训练，在 LiveCodeBench (v5) 上达到了 54% 到 58% 的准确率。当在 64K 上下文下进行评估时，DeepCoder - 14B - Preview 成功地泛化到更长的上下文，达到了 60.6% 的准确率。

由于采用了 DAPO 的超长过滤技术，DeepCoder 比基础蒸馏模型在长上下文上具有更好的泛化能力。然而，当最大长度限制为 16K 时，其较长的响应通常会被截断，这可能会降低其得分。

模型	16K	32K	64K
DeepCoder - 14B - Preview	45.6	57.9	60.6
DeepSeek - R1 - Distill - Qwen - 14B	50.2	53.0	53.0

更详细的训练方法描述可以在我们的博客文章中找到。

评估结果

我们在各种编码基准测试中对 Deepcoder - 14B - Preview 进行了评估，包括 LiveCodeBench (LCBv5)、Codeforces 和 HumanEval+。

模型	LCB (v5)(8/1/24 - 2/1/25)	Codeforces Rating	Codeforces Percentile	HumanEval+
DeepCoder - 14B - Preview (我们的模型)	60.6	1936	95.3	92.6
DeepSeek - R1 - Distill - Qwen - 14B	53.0	1791	92.7	92.0
O1 - 2024 - 12 - 17 (Low)	59.5	1991	96.1	90.8
O3 - Mini - 2025 - 1 - 31 (Low)	60.9	1918	94.9	92.6
O1 - Preview	42.7	1658	88.5	89
Deepseek - R1	62.8	1948	95.4	92.6
Llama - 4 - Behemoth	49.4	-	-	-

使用建议

我们的使用建议与 R1 和 R1 Distill 系列相似：

避免添加系统提示；所有指令应包含在用户提示中。
temperature = 0.6
top_p = 0.95
该模型在 max_tokens 至少设置为 64000 时表现最佳。

🔧 技术细节

文档未提供足够详细的技术实现细节，可参考相关论文和代码仓库获取更多信息。

📄 许可证

本项目采用 MIT 许可证发布，这体现了我们对开放和可访问的人工智能开发的承诺。我们相信通过免费提供我们的工作，让任何人都可以使用、修改和扩展，从而实现人工智能技术的民主化。这种宽松的许可证确保了全球的研究人员、开发者和爱好者可以无限制地利用和扩展我们的工作，促进人工智能社区的创新和合作。

致谢

我们的训练实验由我们对 Verl 的深度修改分支提供支持，Verl 是一个开源的训练后处理库。
我们的模型基于 DeepSeek - R1 - Distill - Qwen - 14B 进行训练。
我们的工作是伯克利天空计算实验室和伯克利人工智能研究的一部分。

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}