🚀 DeepCoder-1.5B-Preview
DeepCoder-1.5B-Previewは、大規模言語モデル(LLM)の強化学習(RLLM)を民主化するためのコード推論モデルです。分散強化学習を用いてDeepSeek-R1-Distill-Qwen-1.5Bからファインチューニングされ、長いコンテキスト長に対応しています。
🚀 クイックスタート
DeepCoder-1.5B-Previewは、コード推論に特化したLLMです。以下のセクションでは、このモデルのデータ、学習方法、評価結果、サービング方法などについて詳しく説明します。
✨ 主な機能
- 分散強化学習を用いたファインチューニングにより、長いコンテキスト長に対応
- 改良版GRPO(GRPO+)と反復的コンテキスト拡張による学習方法
- 様々なコーディングベンチマークで高い性能を発揮
📦 インストール
このモデルは、以下の高性能推論システムを用いてサービングすることができます。
- vLLM
- Hugging Face Text Generation Inference (TGI)
- SGLang
- TensorRT-LLM
これらのシステムはすべて、OpenAI Chat Completions API形式をサポートしています。
📚 ドキュメント
データ
学習データセットは、以下のソースから約24Kのユニークな問題とテストのペアを収集したものです。
- Taco-Verified
- PrimeIntellect SYNTHETIC-1
- LiveCodeBench v5 (5/1/23 - 7/31/24)
学習方法
学習方法は、改良版GRPO(GRPO+)と反復的コンテキスト拡張を用いています。
GRPO+
元のGRPOアルゴリズムをDAPOのアイデアで強化し、より安定した学習を可能にします。
- オフライン難易度フィルタリング:DAPOはオンライン動的サンプリングを使用し、完全に正解または不正解のサンプルを即座に破棄します。これは効果的なバッチサイズを安定させるのに役立ちますが、棄却サンプリングによる実行時のオーバーヘッドが大きくなります。その代わりに、コーディング問題のサブセットに対してオフラインで難易度フィルタリングを行い、学習データセットが適切な難易度範囲内に収まるようにします。
- エントロピー損失の削除:エントロピー損失項を含めると、エントロピーが指数関数的に増加し、最終的に学習が崩壊する不安定性が生じることが多いことが観察されました。これを軽減するために、エントロピー損失を完全に削除します。
- KL損失の削除:KL損失を削除することで、LLMが元のSFTモデルの信頼領域内に留まることを防ぎます。この削除により、参照ポリシーの対数確率を計算する必要もなくなり、学習が高速化されます。
- 長文フィルタリング(DAPOから):長文推論を維持するために、切り捨てられたシーケンスの損失をマスクします。この手法により、DeepCoderは32Kのコンテキストで学習されているにもかかわらず、64Kのコンテキスト推論に一般化することができます。
- 上限クリッピング(DAPOから):GRPO/PPOの代理損失の上限を引き上げることで、より多くの探索と安定したエントロピーを促進します。
反復的コンテキスト拡張
元のDeepscaler-1.5B-Preview
は、長文コンテキスト学習を8K→16K→24Kに拡大し、AIMEでそれぞれ33→38→43%の精度を達成しました。同様に、Deepcoder-14B-Preview
は16K→32Kで学習され、LiveCodeBench (v5)で54→58%の精度を達成しました。DeepCoder-14B-Preview
は、64Kのコンテキストで評価されたときに、長文コンテキストにうまく一般化し、60.6%に達しました。
DeepCoderは、DAPOの長文フィルタリングにより、ベースの蒸留モデルよりも長文コンテキストに対する一般化能力が高いです。ただし、最大長が16Kに制限されている場合、長い応答が切り捨てられることが多く、スコアが低下することがあります。
モデル |
16K |
32K |
64K |
DeepCoder-14B-Preview |
45.6 |
57.9 |
60.6 |
DeepSeek-R1-Distill-Qwen-14B |
50.2 |
53.0 |
53.0 |
学習方法の詳細な説明は、ブログ記事を参照してください。
評価
Deepcoder-1.5B-Preview
は、LiveCodeBench (LCBv5)、Codeforces、HumanEval+などの様々なコーディングベンチマークで評価されています。
モデル |
LCB (v5)(8/1/24 - 2/1/25) |
Codeforces Rating |
Codeforces Percentile |
HumanEval+ |
DeepCoder-1.5B-Preview |
25.1 |
963 |
28.5 |
73.0 |
Deepseek-R1-Distill-Qwen-1.5B |
16.9 |
615 |
1.9 |
58.3 |
🔧 技術詳細
このモデルは、以下の要素に基づいて構築されています。
属性 |
详情 |
模型类型 |
コード推論LLM |
训练数据 |
Taco-Verified、PrimeIntellect SYNTHETIC-1、LiveCodeBench v5 |
学習方法 |
改良版GRPO(GRPO+)と反復的コンテキスト拡張 |
推論システム |
vLLM、Hugging Face Text Generation Inference (TGI)、SGLang、TensorRT-LLM |
📄 ライセンス
このプロジェクトはMITライセンスの下で公開されています。これは、オープンでアクセス可能なAI開発への取り組みを反映しています。私たちは、誰もが自由に使用、修正、拡張できるようにすることで、AI技術の民主化を目指しています。この寛容なライセンスにより、世界中の研究者、開発者、エンスチューシャストが制限なく私たちの成果を活用し、拡張することができ、AIコミュニティにおける革新と協力が促進されます。
謝辞
引用
@misc{deepcoder2025,
title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
note={Notion Blog},
year={2025}
}