モデル概要
モデル特徴
モデル能力
使用事例
🚀 DeepSeek-R1-0528
DeepSeek-R1-0528はDeepSeek R1モデルの小規模なバージョンアップです。このモデルは、計算リソースを増やし、アルゴリズム最適化メカニズムを導入することで、推論深度と能力を大幅に向上させ、数学、プログラミング、一般論理などの複数のベンチマーク評価で優れた成績を収めています。全体的な性能は、O3やGemini 2.5 Proなどの先進モデルに近づいています。
🚀 クイックスタート
DeepSeekの公式ウェブサイトでDeepSeek-R1と会話することができます:chat.deepseek.com ,そして「DeepThink」ボタンをオンにします。
DeepSeekプラットフォームでは、OpenAIと互換性のあるAPIも提供しています:platform.deepseek.com
DeepSeek-R1-0528をローカルで実行する方法については、DeepSeek-R1リポジトリをご覧ください。
✨ 主な機能
- 推論能力の大幅向上:最新の更新では、DeepSeek R1はより多くの計算リソースを活用し、アルゴリズム最適化メカニズムを導入することで、推論深度と推論能力を大幅に向上させました。
- 多領域での優れた性能:このモデルは、数学、プログラミング、一般論理などの複数のベンチマーク評価で優れた成績を収めており、全体的な性能はO3やGemini 2.5 Proなどの先進モデルに近いレベルです。
- 幻覚率の低減:このバージョンでは幻覚率が低減され、関数呼び出しのサポートが強化され、より良いコンテキストエンコーディング体験が提供されます。
📚 ドキュメント
モデルのアップグレードについて
DeepSeek R1モデルは小規模なバージョンアップが行われ、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1は計算リソースを増やし、後期訓練でアルゴリズム最適化メカニズムを導入することで、推論深度と推論能力を大幅に向上させました。このモデルは、数学、プログラミング、一般論理などの複数のベンチマーク評価で優れた成績を収めており、全体的な性能はO3やGemini 2.5 Proなどの先進モデルに近いレベルです。
以前のバージョンと比較すると、アップグレード後のモデルは複雑な推論タスクの処理能力が大幅に向上しています。例えば、2025年のAIMEテストでは、モデルの正解率が以前のバージョンの70%から現在のバージョンの87.5%に向上しています。この進歩は、推論過程での思考深度の強化によるものです。AIMEテストセットでは、以前のモデルは問題ごとに平均12Kのトークンを使用していましたが、新しいバージョンでは問題ごとに平均23Kのトークンを使用しています。
評価結果
DeepSeek-R1-0528
すべてのモデルについて、最大生成長は64Kトークンに設定されています。サンプリングが必要なベンチマークテストでは、温度値$0.6$、top-p値$0.95$を使用し、各クエリに対して16個の応答を生成してpass@1を推定します。
カテゴリ | ベンチマークテスト(指標) | DeepSeek R1 | DeepSeek R1 0528 |
---|---|---|---|
汎用 | MMLU-Redux (EM) | 92.9 | 93.4 |
汎用 | MMLU-Pro (EM) | 84.0 | 85.0 |
汎用 | GPQA-Diamond (Pass@1) | 71.5 | 81.0 |
汎用 | SimpleQA (Correct) | 30.1 | 27.8 |
汎用 | FRAMES (Acc.) | 82.5 | 83.0 |
汎用 | Humanity's Last Exam (Pass@1) | 8.5 | 17.7 |
コード | LiveCodeBench (2408 - 2505) (Pass@1) | 63.5 | 73.3 |
コード | Codeforces-Div1 (Rating) | 1530 | 1930 |
コード | SWE Verified (Resolved) | 49.2 | 57.6 |
コード | Aider-Polyglot (Acc.) | 53.3 | 71.6 |
数学 | AIME 2024 (Pass@1) | 79.8 | 91.4 |
数学 | AIME 2025 (Pass@1) | 70.0 | 87.5 |
数学 | HMMT 2025 (Pass@1) | 41.7 | 79.4 |
数学 | CNMO 2024 (Pass@1) | 78.8 | 86.9 |
ツール | BFCL_v3_MultiTurn (Acc) | - | 37.0 |
ツール | Tau-Bench (Pass@1) | - | 53.5(航空会社)/63.9(小売業) |
注意:SWE-Verifiedでのモデルの性能評価には、エージェントなしのフレームワークを使用しています。HLEテストセットでは、純粋なテキストプロンプトのみを評価しています。Tau-bench評価では、GPT - 4.1がユーザーロールを担当しています。
DeepSeek-R1-0528-Qwen3-8B
また、DeepSeek-R1-0528から思考連鎖を抽出してQwen3 8B Baseを後期訓練することで、DeepSeek-R1-0528-Qwen3-8Bを得ました。このモデルは、2024年のAIMEテストでオープンソースモデルの中で最高の性能を達成し、Qwen3 8Bよりも10.0%向上し、Qwen3 - 235B - thinkingと同等の性能を発揮します。DeepSeek-R1-0528の思考連鎖は、推論モデルの学術研究や小規模モデルの産業開発にとって重要な意義を持っていると考えられます。
AIME 24 | AIME 25 | HMMT Feb 25 | GPQA Diamond | LiveCodeBench (2408 - 2505) | |
---|---|---|---|---|---|
Qwen3 - 235B - A22B | 85.7 | 81.5 | 62.5 | 71.1 | 66.5 |
Qwen3 - 32B | 81.4 | 72.9 | - | 68.4 | - |
Qwen3 - 8B | 76.0 | 67.3 | - | 62.0 | - |
Phi - 4 - Reasoning - Plus - 14B | 81.3 | 78.0 | 53.6 | 69.3 | - |
Gemini - 2.5 - Flash - Thinking - 0520 | 82.3 | 72.0 | 64.2 | 82.8 | 62.3 |
o3 - mini (medium) | 79.6 | 76.7 | 53.3 | 76.8 | 65.9 |
DeepSeek - R1 - 0528 - Qwen3 - 8B | 86.0 | 76.3 | 61.5 | 61.1 | 60.5 |
ローカル実行の説明
以前のバージョンのDeepSeek-R1と比較すると、DeepSeek-R1-0528の使用に関する推奨事項には以下の変更があります。
- システムプロンプトのサポート:現在、システムプロンプトがサポートされています。
- 強制的な思考モードの不要:出力の先頭に"<think>\n"を追加してモデルを強制的に思考モードに入れる必要はありません。
DeepSeek-R1-0528-Qwen3-8BのモデルアーキテクチャはQwen3 8Bと同じですが、DeepSeek-R1-0528と同じトークナイザー設定を共有しています。このモデルは、Qwen3 8Bと同じ方法で実行できます。
システムプロンプト
DeepSeekの公式ウェブサイト/アプリケーションでは、特定の日付を含む同じシステムプロンプトを使用しています。
このアシスタントはDeepSeek-R1で、深度求索社によって作成されました。
今日は{current date}です。
例えば:
このアシスタントはDeepSeek-R1で、深度求索社によって作成されました。
今日は2025年5月28日、月曜日です。
温度パラメータ
ウェブページとアプリケーション環境では、温度パラメータ$T_{model}$は0.6に設定されています。
ファイルアップロードとウェブ検索のプロンプト
ファイルアップロードの場合、{file_name}、{file_content}、{question}がパラメータです。
file_template = \
"""[ファイル名]: {file_name}
[ファイル内容開始]
{file_content}
[ファイル内容終了]
{question}"""
ウェブ検索の場合、{search_results}、{cur_date}、{question}がパラメータです。 中国語のクエリには、以下のプロンプトを使用します。
search_answer_zh_template = \
'''# 以下の内容は、ユーザーが送信したメッセージに基づく検索結果です。
{search_results}
私があなたに提供した検索結果では、各結果は[webpage X begin]...[webpage X end]の形式になっており、Xは各記事の数字インデックスを表します。適切な場合は、文の末尾にコンテキストを引用してください。回答の該当部分に[citation:X]の形式で引用番号を記載してください。ある文が複数のコンテキストに由来する場合は、すべての関連する引用番号をリストしてください。例えば[citation:3][citation:5]のように、引用を最後にまとめて記載するのではなく、回答の該当部分に記載してください。
回答する際には、以下の点に注意してください。
- 今日は{cur_date}です。
- 検索結果のすべての内容がユーザーの質問に密接に関連しているわけではないため、質問に基づいて検索結果を評価し、フィルタリングする必要があります。
- リスト型の質問(すべてのフライト情報を列挙するなど)の場合、回答を10の要点以内に収め、ユーザーに検索ソースを参照して完全な情報を取得できることを通知してください。リストの中で最も完全で関連性の高い項目を優先的に提供してください。必要がない限り、検索結果に含まれていない内容を自発的に述べないでください。
- 創作タスク(論文を書くなど)の場合、参照を本文の中に[citation:3][citation:5]のように引用してください。文末のみに引用を記載しないでください。ユーザーの要求を解釈し、要約し、適切な形式を選択し、検索結果を十分に活用し、重要な情報を抽出し、洞察力があり、創造性があり、専門的な回答を生成してください。回答の長さをできるだけ伸ばし、各ポイントを詳細に、複数の観点から説明し、内容が豊富で徹底的なものになるようにしてください。
- 回答が長い場合は、よく構造化し、段落で要約してください。ポイントごとの形式が必要な場合は、5ポイント以内に抑え、関連する内容を統合してください。
- 客観的な質問と回答の場合、回答が非常に簡潔な場合は、関連する1、2文を追加して内容を充実させてください。
- ユーザーの要求と回答の内容に基づいて、適切で見やすい形式を選択し、読みやすさを確保してください。
- 回答は複数の関連するウェブページの情報を統合し、同じウェブページを繰り返し引用しないでください。
- ユーザーが別の言語での回答を要求しない限り、回答はユーザーの質問と同じ言語で行ってください。
# ユーザーのメッセージは:
{question}'''
英語のクエリには、以下のプロンプトを使用します。
search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
In the search results I provide to you, each result is formatted as [webpage X begin]...[webpage X end], where X represents the numerical index of each article. Please cite the context at the end of the relevant sentence when appropriate. Use the citation format [citation:X] in the corresponding part of your answer. If a sentence is derived from multiple contexts, list all relevant citation numbers, such as [citation:3][citation:5]. Be sure not to cluster all citations at the end; instead, include them in the corresponding parts of the answer.
When responding, please keep the following points in mind:
- Today is {cur_date}.
- Not all content in the search results is closely related to the user's question. You need to evaluate and filter the search results based on the question.
- For listing-type questions (e.g., listing all flight information), try to limit the answer to 10 key points and inform the user that they can refer to the search sources for complete information. Prioritize providing the most complete and relevant items in the list. Avoid mentioning content not provided in the search results unless necessary.
- For creative tasks (e.g., writing an essay), ensure that references are cited within the body of the text, such as [citation:3][citation:5], rather than only at the end of the text. You need to interpret and summarize the user's requirements, choose an appropriate format, fully utilize the search results, extract key information, and generate an answer that is insightful, creative, and professional. Extend the length of your response as much as possible, addressing each point in detail and from multiple perspectives, ensuring the content is rich and thorough.
- If the response is lengthy, structure it well and summarize it in paragraphs. If a point-by-point format is needed, try to limit it to 5 points and merge related content.
- For objective Q&A, if the answer is very brief, you may add one or two related sentences to enrich the content.
- Choose an appropriate and visually appealing format for your response based on the user's requirements and the content of the answer, ensuring strong readability.
- Your answer should synthesize information from multiple relevant webpages and avoid repeatedly citing the same webpage.
- Unless the user requests otherwise, your response should be in the same language as the user's question.
# The user's message is:
{question}'''
📄 ライセンス
このコードリポジトリはMITライセンスに従います。DeepSeek-R1モデルの使用もMITライセンスに従います。DeepSeek-R1シリーズ(基本版と会話版を含む)は、商用利用と蒸留をサポートしています。
🔗 引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
📞 お問い合わせ
何か質問がある場合は、質問を投稿するか、service@deepseek.comまでご連絡ください。



