Deepseek R1 0528

Developed by deepseek-ai

DeepSeek R1モデルはマイナーバージョンアップを完了し、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1は計算リソースの投入を増やし、トレーニング後の段階でアルゴリズム最適化メカニズムを導入することで、深層推論と推論能力を大幅に向上させました。

大規模言語モデル

Transformers

Open Source License:MIT #深度推論最適化 #数学プログラミング強化 #低幻覚率

Downloads 4,556

Release Time : 5/28/2025

Model Overview

このモデルは、数学、プログラミング、一般的な論理などのさまざまなベンチマークテストで卓越した性能を示し、全体的なパフォーマンスは業界をリードするO3やGemini 2.5 Proなどのモデルに近づいています。

Model Features

強化された推論能力

数学、プログラミング、一般的な論理などのさまざまなベンチマークテストで卓越した性能を示し、全体的なパフォーマンスは業界をリードするモデルに近づいています。

低幻覚率

前バージョンと比較して、新版モデルは幻覚率がさらに低くなっています。

強化された関数呼び出しサポート

より優れた関数呼び出しサポートを提供し、プログラミング体験を向上させます。

没入型プログラミング体験

最適化されたモデルは、より優れた没入型プログラミング体験を提供します。

Model Capabilities

テキスト生成

数学的推論

プログラミング支援

論理的推論

マルチターン対話

Use Cases

教育

数学問題解答

AIME競技問題などの複雑な数学問題を解答します。

AIME 2025テストで正解率87.5%を達成。

プログラミング

コード生成と最適化

複数のプログラミング言語に対応したコードの生成と最適化を行います。

LiveCodeBenchテストでPass@1が73.3%を達成。

一般的な質問応答

知識質問応答

さまざまな知識に関する質問に答え、正確な情報を提供します。

MMLU-ProテストでEMが85.0%を達成。

license: mit library_name: transformers

DeepSeek-R1-0528

論文リンク👁️

1. はじめに

DeepSeek R1モデルはマイナーバージョンアップを実施し、現在のバージョンはDeepSeek-R1-0528です。最新のアップデートでは、DeepSeek R1は計算リソースの増強とポストトレーニング中のアルゴリズム最適化メカニズムの導入により、推論能力の深度を大幅に向上させました。このモデルは、数学、プログラミング、一般的な論理を含むさまざまなベンチマーク評価で優れた性能を発揮しており、その総合的な性能は現在、O3やGemini 2.5 Proなどの主要モデルに近づいています。

前バージョンと比較して、アップグレードされたモデルは複雑な推論タスクの処理において大幅な改善を示しています。例えば、AIME 2025テストでは、モデルの精度が前バージョンの70%から現在のバージョンでは87.5%に向上しました。この進歩は、推論プロセスにおける思考の深度が強化されたことに起因しています：AIMEテストセットでは、前モデルは1問あたり平均12Kトークンを使用していたのに対し、新バージョンでは1問あたり平均23Kトークンを使用しています。

改善された推論能力に加えて、このバージョンでは幻覚率の低減、関数呼び出しのサポートの強化、およびバイブコーディングの体験向上も提供されています。

2. 評価結果

DeepSeek-R1-0528

すべてのモデルにおいて、最大生成長は64Kトークンに設定されています。サンプリングを必要とするベンチマークでは、温度$0.6$、top-p値$0.95$を使用し、クエリごとに16の応答を生成してpass@1を推定します。

カテゴリー	ベンチマーク（指標）	DeepSeek R1	DeepSeek R1 0528
一般
	MMLU-Redux (EM)	92.9	93.4
	MMLU-Pro (EM)	84.0	85.0
	GPQA-Diamond (Pass@1)	71.5	81.0
	SimpleQA (正解率)	30.1	27.8
	FRAMES (正解率)	82.5	83.0
	Humanity's Last Exam (Pass@1)	8.5	17.7
コード
	LiveCodeBench (2408-2505) (Pass@1)	63.5	73.3
	Codeforces-Div1 (レーティング)	1530	1930
	SWE Verified (解決率)	49.2	57.6
	Aider-Polyglot (正解率)	53.3	71.6
数学
	AIME 2024 (Pass@1)	79.8	91.4
	AIME 2025 (Pass@1)	70.0	87.5
	HMMT 2025 (Pass@1)	41.7	79.4
	CNMO 2024 (Pass@1)	78.8	86.9
ツール
	BFCL_v3_MultiTurn (正解率)	-	37.0
	Tau-Bench (Pass@1)	-	53.5(航空)/63.9(小売)

注：SWE-Verifiedでのモデル性能評価にはAgentlessフレームワークを使用しています。HLEテストセットではテキストのみのプロンプトを評価しています。Tau-bench評価ではGPT-4.1がユーザー役として使用されています。

DeepSeek-R1-0528-Qwen3-8B

同時に、DeepSeek-R1-0528の連鎖思考を蒸留してQwen3 8B Baseをポストトレーニングし、DeepSeek-R1-0528-Qwen3-8Bを取得しました。このモデルは、オープンソースモデルの中でAIME 2024において最先端（SOTA）の性能を達成し、Qwen3 8Bを+10.0%上回り、Qwen3-235B-thinkingの性能に匹敵します。DeepSeek-R1-0528の連鎖思考は、推論モデルの学術研究と小規模モデルに焦点を当てた産業開発の両方にとって重要な意味を持つと信じています。

	AIME 24	AIME 25	HMMT Feb 25	GPQA Diamond	LiveCodeBench (2408-2505)
Qwen3-235B-A22B	85.7	81.5	62.5	71.1	66.5
Qwen3-32B	81.4	72.9	-	68.4	-
Qwen3-8B	76.0	67.3	-	62.0	-
Phi-4-Reasoning-Plus-14B	81.3	78.0	53.6	69.3	-
Gemini-2.5-Flash-Thinking-0520	82.3	72.0	64.2	82.8	62.3
o3-mini (medium)	79.6	76.7	53.3	76.8	65.9
DeepSeek-R1-0528-Qwen3-8B	86.0	76.3	61.5	61.1	60.5

3. チャットウェブサイトとAPIプラットフォーム

DeepSeek-R1とはDeepSeekの公式ウェブサイトでチャットできます：chat.deepseek.com、そして「DeepThink」ボタンをオンにしてください。

また、DeepSeekプラットフォームでOpenAI互換のAPIを提供しています：platform.deepseek.com

4. ローカルでの実行方法

DeepSeek-R1-0528をローカルで実行するための詳細情報については、DeepSeek-R1リポジトリをご覧ください。

以前のバージョンのDeepSeek-R1と比較して、DeepSeek-R1-0528の使用推奨事項には以下の変更があります：

システムプロンプトがサポートされました。
出力の先頭に"<think>\n"を追加して思考パターンを強制する必要がなくなりました。

DeepSeek-R1-0528-Qwen3-8BのモデルアーキテクチャはQwen3-8Bと同じですが、トークナイザー構成はDeepSeek-R1-0528と同じです。このモデルはQwen3-8Bと同じ方法で実行できます。

システムプロンプト

公式のDeepSeekウェブ/アプリでは、特定の日付と同じシステムプロンプトを使用しています。

このアシスタントはDeepSeek-R1で、深度求索会社によって作成されました。
今日は{current date}です。

例えば、

このアシスタントはDeepSeek-R1で、深度求索会社によって作成されました。
今日は2025年5月28日、月曜日です。

温度

ウェブおよびアプリケーション環境では、温度パラメータ$T_{model}$は0.6に設定されています。

ファイルアップロードとウェブ検索のプロンプト

ファイルアップロードの場合、{file_name}、{file_content}、{question}を引数としてプロンプトを作成するテンプレートに従ってください。

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

ウェブ検索の場合、{search_results}、{cur_date}、{question}が引数です。中国語のクエリの場合、次のプロンプトを使用します：

search_answer_zh_template = \
'''# 以下はユーザーが送信したメッセージに関連する検索結果です：
{search_results}
私が提供する検索結果では、各結果は[webpage X begin]...[webpage X end]の形式で、Xは各記事の数字インデックスを表します。適切な場合、文末にコンテキストを引用してください。回答の対応する部分に[citation:X]の形式で引用してください。一文が複数のコンテキストに由来する場合は、[citation:3][citation:5]のようにすべての関連する引用番号をリストしてください。引用を最後にまとめて返すのではなく、回答の対応する部分にリストしてください。
回答する際には、以下の点に注意してください：
- 今日は{cur_date}です。
- 検索結果のすべての内容がユーザーの質問と密接に関連しているわけではありません。質問に基づいて検索結果を評価し、フィルタリングする必要があります。
- 列挙型の質問（例：すべてのフライト情報を列挙）の場合、回答を10ポイント以内に制限し、ユーザーに検索ソースを参照して完全な情報を取得できることを伝えてください。情報が完全で最も関連性の高い列挙項目を優先的に提供してください。必要でない限り、検索結果に提供されていない内容を積極的に伝えないでください。
- 創作型の質問（例：論文を書く）の場合、本文の段落内で[citation:3][citation:5]のように対応する参照番号を引用してください。記事の最後にのみ引用しないでください。ユーザーの題意を解釈し、要約し、適切な形式を選択し、検索結果を十分に活用し、重要な情報を抽出し、ユーザーの要求に合致し、思想的深度に富み、創造性と専門性に満ちた回答を生成してください。創作の長さを可能な限り延ばし、各ポイントの論述においてユーザーの意図を推測し、可能な限り多角的な回答ポイントを提供し、情報量が豊富で論述が詳細であることを確認してください。
- 回答が長い場合は、構造化し、段落ごとにまとめてください。ポイントごとに回答する必要がある場合は、関連する内容を統合し、5ポイント以内に制限してください。
- 客観的なQ&Aの場合、回答が非常に短い場合は、関連する情報を1〜2文追加して内容を豊かにすることができます。
- ユーザーの要求と回答内容に基づいて、適切で美しい回答形式を選択し、可読性を確保してください。
- 回答は複数の関連するウェブページを統合して回答する必要があり、同じウェブページを繰り返し引用しないでください。
- ユーザーが要求しない限り、回答の言語はユーザーの質問の言語と一致させる必要があります。
# ユーザーのメッセージは：
{question}'''

英語のクエリの場合、次のプロンプトを使用します：

search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
In the search results I provide to you, each result is formatted as [webpage X begin]...[webpage X end], where X represents the numerical index of each article. Please cite the context at the end of the relevant sentence when appropriate. Use the citation format [citation:X] in the corresponding part of your answer. If a sentence is derived from multiple contexts, list all relevant citation numbers, such as [citation:3][citation:5]. Be sure not to cluster all citations at the end; instead, include them in the corresponding parts of the answer.
When responding, please keep the following points in mind:
- Today is {cur_date}.
- Not all content in the search results is closely related to the user's question. You need to evaluate and filter the search results based on the question.
- For listing-type questions (e.g., listing all flight information), try to limit the answer to 10 key points and inform the user that they can refer to the search sources for complete information. Prioritize providing the most complete and relevant items in the list. Avoid mentioning content not provided in the search results unless necessary.
- For creative tasks (e.g., writing an essay), ensure that references are cited within the body of the text, such as [citation:3][citation:5], rather than only at the end of the text. You need to interpret and summarize the user's requirements, choose an appropriate format, fully utilize the search results, extract key information, and generate an answer that is insightful, creative, and professional. Extend the length of your response as much as possible, addressing each point in detail and from multiple perspectives, ensuring the content is rich and thorough.
- If the response is lengthy, structure it well and summarize it in paragraphs. If a point-by-point format is needed, try to limit it to 5 points and merge related content.
- For objective Q&A, if the answer is very brief, you may add one or two related sentences to enrich the content.
- Choose an appropriate and visually appealing format for your response based on the user's requirements and the content of the answer, ensuring strong readability.
- Your answer should synthesize information from multiple relevant webpages and avoid repeatedly citing the same webpage.
- Unless the user requests otherwise, your response should be in the same language as the user's question.
# The user's message is:
{question}'''

5. ライセンス

このコードリポジトリはMITライセンスの下でライセンスされています。DeepSeek-R1モデルの使用もMITライセンスの対象です。DeepSeek-R1シリーズ（BaseおよびChatを含む）は商用利用と蒸留をサポートしています。

6. 引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}