DeepSeek-R1-bf16オープンソース推論モデル - 無料でデプロイ可能、数学やコード推論の性能はOpenAI-o1に匹敵

ホーム

Deepseek R1 Bf16

opensourcereleaseによって開発

DeepSeek-R1は第一代の推論モデルで、数学、コード、推論タスクで優れた性能を発揮し、その性能はOpenAI-o1に匹敵します。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #数学推理 #コード生成 #強化学習訓練

ダウンロード数 1,486

リリース時間 : 1/21/2025

モデル概要

DeepSeek-R1は数学、コード、推論タスクに特化した大規模言語モデルで、強化学習とコールドスタートデータを用いて訓練され、優れた推論能力と自己検証能力を持っています。

モデル特徴

純粋な強化学習訓練

教師付き微調整(SFT)を最初のステップとして必要とせず、直接強化学習でモデルを訓練します。

自己検証能力

モデルは自己検証と反省能力を備え、複雑な問題を解決するための長い思考チェーンを生成することができます。

蒸留サポート

大規模モデルの推論能力を小規模モデルに蒸留し、小規模モデルの性能を向上させることをサポートします。

128Kの長文脈

最大128Kの文脈長をサポートし、長いドキュメントや複雑なタスクの処理に適しています。

モデル能力

数学推理

コード生成

複雑問題解決

長文処理

自己検証

思考チェーン生成

使用事例

教育

数学問題解答

高校数学コンテストの問題を解く

AIME 2024テストで79.8% pass@1を達成

プログラミング教育

プログラミング練習と解答を生成する

LiveCodeBenchテストで65.9% pass@1を達成

ソフトウェア開発

コード生成

要求に応じて機能コードを生成する

Codeforcesテストで2029点を獲得

コードデバッグ

コード内のエラーを分析して修正する

SWE Verifiedテストで49.2%の問題を解決

研究

科学問題解答

複雑な科学問題を解く

GPQA-Diamondテストで71.5% pass@1を達成

🚀 DeepSeek-R1

DeepSeek-R1は、最先端の推論モデルです。大規模強化学習を用いて開発され、数学、コード、推論タスクでOpenAI-o1に匹敵する性能を発揮します。また、モデルの知識蒸留技術を通じて、小規模モデルでも高い性能を達成することができます。

論文リンクüëÅÔ∏è

🚀 クイックスタート

DeepSeek-R1は、最先端の推論モデルで、大規模強化学習を用いて開発されました。このモデルは、数学、コード、推論タスクでOpenAI-o1に匹敵する性能を発揮します。また、知識蒸留技術を通じて、小規模モデルでも高い性能を達成することができます。

✨ 主な機能

1. 導入

DeepSeek-R1-ZeroとDeepSeek-R1という初代推論モデルを紹介します。DeepSeek-R1-Zeroは、教師あり微調整（SFT）を事前ステップとせずに大規模強化学習（RL）を通じて訓練されたモデルで、推論において卓越した性能を示しました。RLにより、DeepSeek-R1-Zeroは多くの強力で興味深い推論行動を自然に獲得しました。しかし、DeepSeek-R1-Zeroは無限の繰り返し、読みにくさ、言語の混合などの問題に直面しています。これらの問題を解決し、推論性能をさらに向上させるために、RLの前にコールドスタートデータを組み込んだDeepSeek-R1を導入します。DeepSeek-R1は、数学、コード、推論タスクでOpenAI-o1に匹敵する性能を達成します。研究コミュニティを支援するために、DeepSeek-R1-Zero、DeepSeek-R1、およびLlamaとQwenに基づいてDeepSeek-R1から蒸留された6つの高密度モデルをオープンソース化しています。DeepSeek-R1-Distill-Qwen-32Bは、さまざまなベンチマークでOpenAI-o1-miniを上回り、高密度モデルの新しい最先端結果を達成しています。

2. モデル概要

事後訓練：ベースモデルでの大規模強化学習

事前ステップとしての教師あり微調整（SFT）に依存せずに、ベースモデルに直接強化学習（RL）を適用します。このアプローチにより、モデルは複雑な問題を解決するための思考連鎖（CoT）を探索することができ、DeepSeek-R1-Zeroの開発につながりました。DeepSeek-R1-Zeroは、自己検証、反省、長いCoTの生成などの能力を示し、研究コミュニティにとって重要なマイルストーンとなりました。特に、LLMの推論能力がSFTを必要とせずに純粋にRLを通じて促進されることを検証した最初のオープンリサーチです。この画期的な成果は、この分野の将来の進歩に道を開きます。
DeepSeek-R1を開発するためのパイプラインを導入します。このパイプラインは、改善された推論パターンを発見し、人間の好みに合わせることを目的とした2つのRLステージと、モデルの推論および非推論能力のシードとして機能する2つのSFTステージを組み込んでいます。このパイプラインは、より良いモデルを作成することで業界に貢献すると考えています。

蒸留：小規模モデルも強力です

大規模モデルの推論パターンを小規模モデルに蒸留することができ、小規模モデルでRLを通じて発見された推論パターンと比較して、より良い性能をもたらすことを示しています。オープンソースのDeepSeek-R1とそのAPIは、将来的により良い小規模モデルを蒸留するために研究コミュニティに役立つでしょう。
DeepSeek-R1によって生成された推論データを使用して、研究コミュニティで広く使用されているいくつかの高密度モデルを微調整しました。評価結果は、蒸留された小規模高密度モデルがベンチマークで非常に良好な性能を発揮することを示しています。Qwen2.5とLlama3シリーズに基づいて蒸留された1.5B、7B、8B、14B、32B、および70Bのチェックポイントをコミュニティにオープンソース化します。

📦 インストール

DeepSeek-R1モデル

モデル	総パラメータ数	活性化パラメータ数	コンテキスト長	ダウンロード
DeepSeek-R1-Zero	671B	37B	128K	ü§ó HuggingFace
DeepSeek-R1	671B	37B	128K	ü§ó HuggingFace

DeepSeek-R1-ZeroとDeepSeek-R1は、DeepSeek-V3-Baseに基づいて訓練されています。モデルアーキテクチャに関する詳細については、DeepSeek-V3リポジトリを参照してください。

DeepSeek-R1-Distillモデル

モデル	ベースモデル	ダウンロード
DeepSeek-R1-Distill-Qwen-1.5B	Qwen2.5-Math-1.5B	ü§ó HuggingFace
DeepSeek-R1-Distill-Qwen-7B	Qwen2.5-Math-7B	ü§ó HuggingFace
DeepSeek-R1-Distill-Llama-8B	Llama-3.1-8B	ü§ó HuggingFace
DeepSeek-R1-Distill-Qwen-14B	Qwen2.5-14B	ü§ó HuggingFace
DeepSeek-R1-Distill-Qwen-32B	Qwen2.5-32B	ü§ó HuggingFace
DeepSeek-R1-Distill-Llama-70B	Llama-3.3-70B-Instruct	ü§ó HuggingFace

DeepSeek-R1-Distillモデルは、オープンソースモデルに基づいて微調整されており、DeepSeek-R1によって生成されたサンプルを使用しています。設定とトークナイザーを少し変更しています。これらのモデルを実行するには、私たちの設定を使用してください。

💻 使用例

ローカルでの実行方法

DeepSeek-R1モデル

DeepSeek-R1をローカルで実行する方法に関する詳細情報については、DeepSeek-V3リポジトリを訪問してください。

DeepSeek-R1-Distillモデル

DeepSeek-R1-Distillモデルは、QwenまたはLlamaモデルと同じ方法で利用できます。

例えば、vLLMを使用して簡単にサービスを開始できます。

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager

⚠️ 重要提示

これらのモデルを実行する際には、適切な温度（0.5から0.7の間）を設定することをお勧めします。そうしないと、無限の繰り返しや出力の不整合などの問題に遭遇する可能性があります。

📚 ドキュメント

評価結果

DeepSeek-R1の評価

すべてのモデルについて、最大生成長は32,768トークンに設定されています。サンプリングを必要とするベンチマークについては、温度を$0.6$、top-p値を$0.95$に設定し、クエリごとに64の応答を生成してpass@1を推定します。

カテゴリ	ベンチマーク (指標)	Claude-3.5-Sonnet-1022	GPT-4o 0513	DeepSeek V3	OpenAI o1-mini	OpenAI o1-1217	DeepSeek R1
	アーキテクチャ	-	-	MoE	-	-	MoE
	活性化パラメータ数	-	-	37B	-	-	37B
	総パラメータ数	-	-	671B	-	-	671B
英語	MMLU (Pass@1)	88.3	87.2	88.5	85.2	91.8	90.8
	MMLU-Redux (EM)	88.9	88.0	89.1	86.7	-	92.9
	MMLU-Pro (EM)	78.0	72.6	75.9	80.3	-	84.0
	DROP (3-shot F1)	88.3	83.7	91.6	83.9	90.2	92.2
	IF-Eval (Prompt Strict)	86.5	84.3	86.1	84.8	-	83.3
	GPQA-Diamond (Pass@1)	65.0	49.9	59.1	60.0	75.7	71.5
	SimpleQA (Correct)	28.4	38.2	24.9	7.0	47.0	30.1
	FRAMES (Acc.)	72.5	80.5	73.3	76.9	-	82.5
	AlpacaEval2.0 (LC-winrate)	52.0	51.1	70.0	57.8	-	87.6
	ArenaHard (GPT-4-1106)	85.2	80.4	85.5	92.0	-	92.3
コード	LiveCodeBench (Pass@1-COT)	33.8	34.2	-	53.8	63.4	65.9
	Codeforces (Percentile)	20.3	23.6	58.7	93.4	96.6	96.3
	Codeforces (Rating)	717	759	1134	1820	2061	2029
	SWE Verified (Resolved)	50.8	38.8	42.0	41.6	48.9	49.2
	Aider-Polyglot (Acc.)	45.3	16.0	49.6	32.9	61.7	53.3
数学	AIME 2024 (Pass@1)	16.0	9.3	39.2	63.6	79.2	79.8
	MATH-500 (Pass@1)	78.3	74.6	90.2	90.0	96.4	97.3
	CNMO 2024 (Pass@1)	13.1	10.8	43.2	67.6	-	78.8
中国語	CLUEWSC (EM)	85.4	87.9	90.9	89.9	-	92.8
	C-Eval (EM)	76.7	76.0	86.5	68.9	-	91.8
	C-SimpleQA (Correct)	55.4	58.7	68.0	40.3	-	63.7

蒸留モデルの評価

モデル	AIME 2024 pass@1	AIME 2024 cons@64	MATH-500 pass@1	GPQA Diamond pass@1	LiveCodeBench pass@1	CodeForces rating
GPT-4o-0513	9.3	13.4	74.6	49.9	32.9	759
Claude-3.5-Sonnet-1022	16.0	26.7	78.3	65.0	38.9	717
o1-mini	63.6	80.0	90.0	60.0	53.8	1820
QwQ-32B-Preview	44.0	60.0	90.6	54.5	41.9	1316
DeepSeek-R1-Distill-Qwen-1.5B	28.9	52.7	83.9	33.8	16.9	954
DeepSeek-R1-Distill-Qwen-7B	55.5	83.3	92.8	49.1	37.6	1189
DeepSeek-R1-Distill-Qwen-14B	69.7	80.0	93.9	59.1	53.1	1481
DeepSeek-R1-Distill-Qwen-32B	72.6	83.3	94.3	62.1	57.2	1691
DeepSeek-R1-Distill-Llama-8B	50.4	80.0	89.1	49.0	39.6	1205
DeepSeek-R1-Distill-Llama-70B	70.0	86.7	94.5	65.2	57.5	1633

チャットサイトとAPIプラットフォーム

DeepSeekの公式ウェブサイト chat.deepseek.com でDeepSeek-R1とチャットすることができます。「DeepThink」ボタンをオンにすることができます。

また、DeepSeekプラットフォーム platform.deepseek.com でOpenAI互換APIも提供しています。

🔧 技術詳細

事後訓練：ベースモデルでの大規模強化学習

事前ステップとしての教師あり微調整（SFT）に依存せずに、ベースモデルに直接強化学習（RL）を適用します。このアプローチにより、モデルは複雑な問題を解決するための思考連鎖（CoT）を探索することができ、DeepSeek-R1-Zeroの開発につながりました。DeepSeek-R1-Zeroは、自己検証、反省、長いCoTの生成などの能力を示し、研究コミュニティにとって重要なマイルストーンとなりました。特に、LLMの推論能力がSFTを必要とせずに純粋にRLを通じて促進されることを検証した最初のオープンリサーチです。この画期的な成果は、この分野の将来の進歩に道を開きます。
DeepSeek-R1を開発するためのパイプラインを導入します。このパイプラインは、改善された推論パターンを発見し、人間の好みに合わせることを目的とした2つのRLステージと、モデルの推論および非推論能力のシードとして機能する2つのSFTステージを組み込んでいます。このパイプラインは、より良いモデルを作成することで業界に貢献すると考えています。

蒸留：小規模モデルも強力です

大規模モデルの推論パターンを小規模モデルに蒸留することができ、小規模モデルでRLを通じて発見された推論パターンと比較して、より良い性能をもたらすことを示しています。オープンソースのDeepSeek-R1とそのAPIは、将来的により良い小規模モデルを蒸留するために研究コミュニティに役立つでしょう。
DeepSeek-R1によって生成された推論データを使用して、研究コミュニティで広く使用されているいくつかの高密度モデルを微調整しました。評価結果は、蒸留された小規模高密度モデルがベンチマークで非常に良好な性能を発揮することを示しています。Qwen2.5とLlama3シリーズに基づいて蒸留された1.5B、7B、8B、14B、32B、および70Bのチェックポイントをコミュニティにオープンソース化します。

📄 ライセンス

このコードリポジトリとモデルの重みは、MITライセンスの下でライセンスされています。DeepSeek-R1シリーズは商用利用をサポートしており、他のLLMの訓練のための蒸留を含む、あらゆる変更や派生作品を許可しています。ただし、以下の点に注意してください。

DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-14B、およびDeepSeek-R1-Distill-Qwen-32Bは、Qwen-2.5シリーズに基づいて派生したもので、元はApache 2.0ライセンスの下でライセンスされており、現在はDeepSeek-R1で選りすぐった800kのサンプルで微調整されています。
DeepSeek-R1-Distill-Llama-8Bは、Llama3.1-8B-Baseに基づいて派生したもので、元はllama3.1ライセンスの下でライセンスされています。
DeepSeek-R1-Distill-Llama-70Bは、Llama3.3-70B-Instructに基づいて派生したもので、元はllama3.3ライセンスの下でライセンスされています。