オープンソースDeepCoder-1.5B-Preview-GGUFモデル - コード推論と長文脈処理をサポート

ホーム

Deepcoder 1.5B Preview GGUF

Mungertによって開発

DeepSeek-R1-Distilled-Qwen-1.5Bをファインチューニングしたコード推論大規模言語モデルで、分散型強化学習技術を用いて長文脈処理能力を拡張

大規模言語モデル英語オープンソースライセンス:MIT #コード推論 #強化学習最適化 #長文脈処理

ダウンロード数 888

リリース時間 : 4/15/2025

モデル概要

DeepCoderはコード推論に特化した大規模言語モデルで、強化学習技術により長文脈処理能力を最適化し、プログラミング支援やコード生成タスクに適しています

モデル特徴

強化学習最適化

改良版GRPO(GRPO+)とDeepScaleRが提案する反復的文脈延長技術を用いて訓練

長文脈処理

反復的文脈延長技術により、最大64Kの長文脈を効果的に処理可能

コード推論能力

プログラミング問題解決とコード生成に特化し、複数のプログラミングベンチマークで優れた性能を発揮

モデル能力

コード生成

プログラミング問題解決

長文脈処理

テキスト生成

使用事例

プログラミング支援

アルゴリズム問題解決

Codeforcesなどのプラットフォーム上のアルゴリズム問題解決を支援

Codeforcesで963点(28.5パーセンタイル)を達成

コード補完

開発者にコード補完の提案を提供

HumanEval+で73.0点を達成

教育

プログラミング学習支援

学生がプログラミング演習を理解し解決するのを支援

🚀 DeepCoder-1.5B-Preview

DeepCoder-1.5B-Previewは、大規模言語モデル（LLM）の強化学習（RLLM）を民主化するためのコード推論モデルです。分散強化学習を用いてDeepSeek-R1-Distill-Qwen-1.5Bからファインチューニングされ、長いコンテキスト長に対応しています。

🚀 クイックスタート

DeepCoder-1.5B-Previewは、コード推論に特化したLLMです。以下のセクションでは、このモデルのデータ、学習方法、評価結果、サービング方法などについて詳しく説明します。

✨ 主な機能

分散強化学習を用いたファインチューニングにより、長いコンテキスト長に対応
改良版GRPO（GRPO+）と反復的コンテキスト拡張による学習方法
様々なコーディングベンチマークで高い性能を発揮

📦 インストール

このモデルは、以下の高性能推論システムを用いてサービングすることができます。

vLLM
Hugging Face Text Generation Inference (TGI)
SGLang
TensorRT-LLM

これらのシステムはすべて、OpenAI Chat Completions API形式をサポートしています。

📚 ドキュメント

データ

学習データセットは、以下のソースから約24Kのユニークな問題とテストのペアを収集したものです。

Taco-Verified
PrimeIntellect SYNTHETIC-1
LiveCodeBench v5 (5/1/23 - 7/31/24)

学習方法

学習方法は、改良版GRPO（GRPO+）と反復的コンテキスト拡張を用いています。

GRPO+

元のGRPOアルゴリズムをDAPOのアイデアで強化し、より安定した学習を可能にします。

オフライン難易度フィルタリング：DAPOはオンライン動的サンプリングを使用し、完全に正解または不正解のサンプルを即座に破棄します。これは効果的なバッチサイズを安定させるのに役立ちますが、棄却サンプリングによる実行時のオーバーヘッドが大きくなります。その代わりに、コーディング問題のサブセットに対してオフラインで難易度フィルタリングを行い、学習データセットが適切な難易度範囲内に収まるようにします。
エントロピー損失の削除：エントロピー損失項を含めると、エントロピーが指数関数的に増加し、最終的に学習が崩壊する不安定性が生じることが多いことが観察されました。これを軽減するために、エントロピー損失を完全に削除します。
KL損失の削除：KL損失を削除することで、LLMが元のSFTモデルの信頼領域内に留まることを防ぎます。この削除により、参照ポリシーの対数確率を計算する必要もなくなり、学習が高速化されます。
長文フィルタリング（DAPOから）：長文推論を維持するために、切り捨てられたシーケンスの損失をマスクします。この手法により、DeepCoderは32Kのコンテキストで学習されているにもかかわらず、64Kのコンテキスト推論に一般化することができます。
上限クリッピング（DAPOから）：GRPO/PPOの代理損失の上限を引き上げることで、より多くの探索と安定したエントロピーを促進します。

反復的コンテキスト拡張

元のDeepscaler-1.5B-Previewは、長文コンテキスト学習を8K→16K→24Kに拡大し、AIMEでそれぞれ33→38→43%の精度を達成しました。同様に、Deepcoder-14B-Previewは16K→32Kで学習され、LiveCodeBench (v5)で54→58%の精度を達成しました。DeepCoder-14B-Previewは、64Kのコンテキストで評価されたときに、長文コンテキストにうまく一般化し、60.6%に達しました。

DeepCoderは、DAPOの長文フィルタリングにより、ベースの蒸留モデルよりも長文コンテキストに対する一般化能力が高いです。ただし、最大長が16Kに制限されている場合、長い応答が切り捨てられることが多く、スコアが低下することがあります。

モデル	16K	32K	64K
DeepCoder-14B-Preview	45.6	57.9	60.6
DeepSeek-R1-Distill-Qwen-14B	50.2	53.0	53.0

学習方法の詳細な説明は、ブログ記事を参照してください。

評価

Deepcoder-1.5B-Previewは、LiveCodeBench (LCBv5)、Codeforces、HumanEval+などの様々なコーディングベンチマークで評価されています。

モデル	LCB (v5)(8/1/24 - 2/1/25)	Codeforces Rating	Codeforces Percentile	HumanEval+
DeepCoder-1.5B-Preview	25.1	963	28.5	73.0
Deepseek-R1-Distill-Qwen-1.5B	16.9	615	1.9	58.3

🔧 技術詳細

このモデルは、以下の要素に基づいて構築されています。

属性	详情
模型类型	コード推論LLM
训练数据	Taco-Verified、PrimeIntellect SYNTHETIC-1、LiveCodeBench v5
学習方法	改良版GRPO（GRPO+）と反復的コンテキスト拡張
推論システム	vLLM、Hugging Face Text Generation Inference (TGI)、SGLang、TensorRT-LLM

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。これは、オープンでアクセス可能なAI開発への取り組みを反映しています。私たちは、誰もが自由に使用、修正、拡張できるようにすることで、AI技術の民主化を目指しています。この寛容なライセンスにより、世界中の研究者、開発者、エンスチューシャストが制限なく私たちの成果を活用し、拡張することができ、AIコミュニティにおける革新と協力が促進されます。

謝辞

学習実験は、オープンソースの事後学習ライブラリであるVerlの大幅に修正されたフォークによってサポートされています。
特に、1.5Bモデルはverl pipeline（元のverlの拡張）を用いて学習されています。
このモデルは、DeepSeek-R1-Distill-Qwen-1.5Bをベースに学習されています。
この研究は、Berkeley Sky Computing LabとBerkeley AI Researchの一環として行われています。

引用

@misc{deepcoder2025,
  title={DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level},
  author={Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, Ion Stoica},
  howpublished={\url{https://pretty-radio-b75.notion.site/DeepCoder-A-Fully-Open-Source-14B-Coder-at-O3-mini-Level-1cf81902c14680b3bee5eb349a512a51}},
  note={Notion Blog},
  year={2025}
}