モデル概要
モデル特徴
モデル能力
使用事例
🚀 DeepSeek-R1-0528-AWQ 671B
これはDeepSeek-R1-0528 671Bモデルの4ビットAWQ量子化バージョンで、vLLMとSGLangを組み合わせて、8xA100/8xH20/8xH100などのGPUノードで使用するのに適しています。
8x H100 80GBでvLLMを使用してこのモデルを実行できます。
vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8
上記の方法が適用できない場合は、--quantization awq_marlin
と--dtype float16
をそれぞれ使用して、量子化方式とデータ型を手動で指定する必要がある場合があります。
このモデルを作成するために使用されたスクリプトは次のとおりです。
from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }
# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model.quantize(
tokenizer,
quant_config=quant_config,
n_parallel_calib_samples=None,
max_calib_samples=64,
max_calib_seq_len=1024
)
# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)
print(f'Model is quantized and saved at "{quant_path}"')
AutoAWQ 0.2.8、transformers 4.48.0、torch 2.6.0を使用しました。ここで言及されている問題を解決するために、modeling_deepseek.py
を若干修正しました。
量子化操作は、960GBのメモリと800GBのスワップ空間を備えた8x H100 80GBノードで行われました。UnslothのBF16バージョンを起点としましたが、AWQ量子化スクリプトを実行する前に、config.json
からquantization_config
部分を削除しました。3回目の試行が成功し、前の2回の試行は15時間以上実行した後にメモリ不足で失敗しました。最後の試行では約18時間かかりました。
量子化が下流の性能に与える影響を測定するための評価を行う予定ですが、現時点ではまだ完全に決まっていません。
これは完全な671Bモデルです。このモデルを実行するために必要なハイエンドハードウェアを使用できない場合は、Qwen3 8Bベースの蒸留バージョンを実行することを検討してください。
🚀 クイックスタート
このプロジェクトはDeepSeek-R1-0528 671Bモデルの4ビットAWQ量子化バージョンで、特定のGPUノードとツールと組み合わせて使用できます。以下に、すぐに使い始める方法を紹介します。
モデルの実行
8x H100 80GBでvLLMを使用してこのモデルを実行できます。次のコマンドを使用します。
vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8
上記の方法が適用できない場合は、--quantization awq_marlin
と--dtype float16
をそれぞれ使用して、量子化方式とデータ型を手動で指定する必要がある場合があります。
量子化モデルの作成
このモデルを作成するために使用されたスクリプトは次のとおりです。
from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }
# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model.quantize(
tokenizer,
quant_config=quant_config,
n_parallel_calib_samples=None,
max_calib_samples=64,
max_calib_seq_len=1024
)
# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)
print(f'Model is quantized and saved at "{quant_path}"')
✨ 主な機能
モデルのアップグレード
DeepSeek R1モデルは小バージョンアップされ、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1はより多くの計算リソースを活用し、後期のトレーニングでアルゴリズム最適化メカニズムを導入することで、推論深度と推論能力を大幅に向上させました。このモデルは、数学、プログラミング、一般論理を含むさまざまなベンチマーク評価で優れた性能を発揮し、全体的な性能は現在、O3やGemini 2.5 Proなどの最先端モデルに近づいています。
性能の向上
前のバージョンと比較して、アップグレードされたモデルは複雑な推論タスクの処理能力が大幅に向上しています。たとえば、AIME 2025テストでは、モデルの正解率が前のバージョンの70%から現在のバージョンの87.5%に向上しています。この進歩は、推論過程での思考深度の強化によるものです。AIMEテストセットでは、以前のモデルは平均で1問あたり12Kのトークンを使用していましたが、新しいバージョンでは平均で1問あたり23Kのトークンを使用しています。
その他の利点
改善された推論能力に加えて、このバージョンは幻覚率を低下させ、関数呼び出しのサポートを強化し、より良い雰囲気エンコーディング体験を提供します。
📦 インストール
DeepSeek-R1リポジトリを訪問して、DeepSeek-R1-0528をローカルで実行するための詳細情報を取得してください。
💻 使用例
システムプロンプト
公式のDeepSeekウェブサイト/アプリでは、特定の日付を含む同じシステムプロンプトを使用しています。
このアシスタントはDeepSeek-R1で、深度求索社によって作成されました。
今日は{current date}です。
例:
このアシスタントはDeepSeek-R1で、深度求索社によって作成されました。
今日は2025年5月28日、月曜日です。
温度パラメータ
ウェブページとアプリ環境では、温度パラメータ$T_{model}$は0.6に設定されています。
ファイルアップロードプロンプト
ファイルアップロードの場合は、次のテンプレートを使用してプロンプトを作成してください。{file_name}、{file_content}、{question}はパラメータです。
file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""
ウェブ検索プロンプト
ウェブ検索の場合は、{search_results}、{cur_date}、{question}がパラメータです。中国語のクエリの場合は、次のプロンプトを使用します。
search_answer_zh_template = \
'''# 以下の内容は、ユーザーが送信したメッセージに基づく検索結果です。
{search_results}
私があなたに与えた検索結果の中で、各結果は[webpage X begin]...[webpage X end]の形式になっています。Xは各記事の数字インデックスを表します。適切な場合は、文章の末尾にコンテキストを引用してください。回答の該当部分に、引用番号[citation:X]の形式でコンテキストを引用してください。ある文章が複数のコンテキストに由来する場合は、すべての関連する引用番号を列挙してください。たとえば[citation:3][citation:5]のように、引用を最後にまとめて返さず、回答の該当部分に列挙するようにしてください。
回答する際は、以下の点に注意してください。
- 今日は{cur_date}です。
- 検索結果のすべての内容がユーザーの質問に密接に関連しているわけではないため、質問に合わせて検索結果を選別する必要があります。
- 列挙型の質問(すべてのフライト情報を列挙するなど)の場合は、回答を10項目以内に抑え、ユーザーに検索元を参照して完全な情報を取得することを伝えてください。情報が完全で最も関連性の高い列挙項目を優先的に提供してください。必要がない限り、検索結果に含まれない内容を勝手に伝えないでください。
- 創作型の質問(論文を書くなど)の場合は、必ず本文の段落内に該当する参照番号を引用してください。たとえば[citation:3][citation:5]のように、文章の末尾だけに引用しないでください。ユーザーの質問の要求を解釈して要約し、適切な形式を選択し、検索結果を十分に活用して重要な情報を抽出し、ユーザーの要求に合致し、思想的な深みがあり、創造性と専門性に富んだ回答を生成してください。創作の長さはできるだけ長くし、各ポイントの論述ではユーザーの意図を推測し、できるだけ多角的な回答ポイントを提供し、かつ情報量が多く、詳細に論述してください。
- 回答が長い場合は、できるだけ構造化し、段落でまとめてください。項目別に回答する場合は、できるだけ5項目以内に抑え、関連する内容をまとめてください。
- 客観的な質問に対する回答で、質問の答えが非常に短い場合は、関連する情報を1~2文追加して内容を充実させてください。
- ユーザーの要求と回答内容に合わせて、適切で見やすい回答形式を選択し、読みやすさを確保してください。
- 回答は複数の関連するウェブページを総合して行い、同じウェブページを繰り返し引用しないでください。
- ユーザーから要求がない限り、回答の言語はユーザーの質問の言語と一致させてください。
# ユーザーのメッセージは次のとおりです。
{question}'''
📚 ドキュメント
評価結果
DeepSeek-R1-0528
すべてのモデルで、最大生成長は64Kトークンに設定されています。サンプリングが必要なベンチマークテストでは、温度0.6、top-p値0.95を使用し、各クエリに対して16個の応答を生成してpass@1を推定します。
DeepSeek-R1-0528-Qwen3-8B
同時に、DeepSeek-R1-0528の思考連鎖をQwen3 8B Baseに蒸留して後期トレーニングを行い、DeepSeek-R1-0528-Qwen3-8Bを得ました。このモデルはAIME 2024でオープンソースモデルの中で最高レベルの性能を発揮し、Qwen3 8Bよりも10.0%高く、Qwen3 - 235B - thinkingと同等の性能を示します。DeepSeek-R1-0528の思考連鎖は、推論モデルの学術研究と小規模モデルに特化した産業開発の両方にとって重要であると考えられます。
AIME 24 | AIME 25 | HMMT Feb 25 | GPQA Diamond | LiveCodeBench (2408 - 2505) | |
---|---|---|---|---|---|
Qwen3 - 235B - A22B | 85.7 | 81.5 | 62.5 | 71.1 | 66.5 |
Qwen3 - 32B | 81.4 | 72.9 | - | 68.4 | - |
Qwen3 - 8B | 76.0 | 67.3 | - | 62.0 | - |
Phi - 4 - Reasoning - Plus - 14B | 81.3 | 78.0 | 53.6 | 69.3 | - |
Gemini - 2.5 - Flash - Thinking - 0520 | 82.3 | 72.0 | 64.2 | 82.8 | 62.3 |
o3 - mini (medium) | 79.6 | 76.7 | 53.3 | 76.8 | 65.9 |
DeepSeek - R1 - 0528 - Qwen3 - 8B | 86.0 | 76.3 | 61.5 | 61.1 | 60.5 |
チャットサイトとAPIプラットフォーム
DeepSeekの公式ウェブサイトchat.deepseek.comで、DeepSeek-R1とチャットし、「DeepThink」ボタンをオンにすることができます。
DeepSeekプラットフォームplatform.deepseek.comでは、OpenAI互換のAPIも提供しています。
📄 ライセンス
このコードリポジトリはMITライセンスに従います。DeepSeek-R1モデルの使用もMITライセンスに従います。DeepSeek-R1シリーズ(BaseとChatを含む)は、商用利用と蒸留をサポートしています。
🔧 技術詳細
量子化環境と修正
量子化操作は、960GBのメモリと800GBのスワップ空間を備えた8x H100 80GBノードで行われました。AutoAWQ 0.2.8、transformers 4.48.0、torch 2.6.0を使用しました。ここで言及されている問題を解決するために、modeling_deepseek.py
を若干修正しました。
量子化プロセス
UnslothのBF16バージョンを起点としましたが、AWQ量子化スクリプトを実行する前に、config.json
からquantization_config
部分を削除しました。3回目の試行が成功し、前の2回の試行は15時間以上実行した後にメモリ不足で失敗しました。最後の試行では約18時間かかりました。
📚 引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
📞 お問い合わせ
何か質問がある場合は、質問を投稿するか、service@deepseek.comまでご連絡ください。



