DeepSeek-R1-0528-AWQオープンソースモデル - ハイエンドGPUノードに適し、強力なアプリケーションの潜在能力を解放

ホーム

Deepseek R1 0528 AWQ

adamo1139によって開発

DeepSeek - R1 - 0528 671Bモデルの4ビットAWQ量子化バージョンで、ハイエンドGPUノードでの使用に適しています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #4ビット量子化推論 #超大規模モデル #複雑なタスク処理

ダウンロード数 161

リリース時間 : 5/31/2025

モデル概要

これはDeepSeek - R1 - 0528 671Bモデルの4ビットAWQ量子化バージョンで、vLLMとSGLangを組み合わせて、8xA100/8xH20/8xH100などのGPUノードで使用するのに適しています。

モデル特徴

高性能推論

数学、プログラミング、一般的な論理などの様々なベンチマーク評価で優れた性能を発揮し、全体的な性能はO3やGemini 2.5 Proなどの最先端モデルに近いです。

量子化最適化

4ビットAWQ量子化技術を使用して、モデルの実行時のメモリ要件を削減しながら、高い性能を維持します。

推論深度の強化

後期学習におけるアルゴリズム最適化メカニズムにより、推論深度と推論能力が大幅に向上しました。

幻覚率の低減

前のバージョンと比較して、新しいバージョンは幻覚率を低減し、より正確な回答を提供します。

モデル能力

複雑な数学問題の解決

プログラムコードの生成

論理推論

複数ラウンドの対話

ファイル内容の分析

ウェブ検索結果の統合

使用事例

教育

数学コンテスト問題の解答

AIME、HMMTなどの数学コンテストの問題を解答します。

AIME 2025テストでの正解率は87.5%に達しました。

プログラミング

コード生成と最適化

プログラミングコードを生成し、最適化します。

LiveCodeBenchテストでのPass@1は73.3%に達しました。

研究

学術研究支援

研究者が文献レビューやデータ分析を行うのを支援します。

🚀 DeepSeek-R1-0528-AWQ 671B

これはDeepSeek-R1-0528 671Bモデルの4ビットAWQ量子化バージョンで、vLLMとSGLangを組み合わせて、8xA100/8xH20/8xH100などのGPUノードで使用するのに適しています。

8x H100 80GBでvLLMを使用してこのモデルを実行できます。

vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8

上記の方法が適用できない場合は、--quantization awq_marlinと--dtype float16をそれぞれ使用して、量子化方式とデータ型を手動で指定する必要がある場合があります。

このモデルを作成するために使用されたスクリプトは次のとおりです。

from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model.quantize(
    tokenizer,
    quant_config=quant_config,
    n_parallel_calib_samples=None,
    max_calib_samples=64,
    max_calib_seq_len=1024
)


# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f'Model is quantized and saved at "{quant_path}"')

AutoAWQ 0.2.8、transformers 4.48.0、torch 2.6.0を使用しました。ここで言及されている問題を解決するために、modeling_deepseek.pyを若干修正しました。

量子化操作は、960GBのメモリと800GBのスワップ空間を備えた8x H100 80GBノードで行われました。UnslothのBF16バージョンを起点としましたが、AWQ量子化スクリプトを実行する前に、config.jsonからquantization_config部分を削除しました。3回目の試行が成功し、前の2回の試行は15時間以上実行した後にメモリ不足で失敗しました。最後の試行では約18時間かかりました。

量子化が下流の性能に与える影響を測定するための評価を行う予定ですが、現時点ではまだ完全に決まっていません。

これは完全な671Bモデルです。このモデルを実行するために必要なハイエンドハードウェアを使用できない場合は、Qwen3 8Bベースの蒸留バージョンを実行することを検討してください。

論文リンク👁️

🚀 クイックスタート

このプロジェクトはDeepSeek-R1-0528 671Bモデルの4ビットAWQ量子化バージョンで、特定のGPUノードとツールと組み合わせて使用できます。以下に、すぐに使い始める方法を紹介します。

モデルの実行

8x H100 80GBでvLLMを使用してこのモデルを実行できます。次のコマンドを使用します。

vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8

量子化モデルの作成

このモデルを作成するために使用されたスクリプトは次のとおりです。

from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model.quantize(
    tokenizer,
    quant_config=quant_config,
    n_parallel_calib_samples=None,
    max_calib_samples=64,
    max_calib_seq_len=1024
)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f'Model is quantized and saved at "{quant_path}"')

✨ 主な機能

モデルのアップグレード

DeepSeek R1モデルは小バージョンアップされ、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1はより多くの計算リソースを活用し、後期のトレーニングでアルゴリズム最適化メカニズムを導入することで、推論深度と推論能力を大幅に向上させました。このモデルは、数学、プログラミング、一般論理を含むさまざまなベンチマーク評価で優れた性能を発揮し、全体的な性能は現在、O3やGemini 2.5 Proなどの最先端モデルに近づいています。

性能の向上

前のバージョンと比較して、アップグレードされたモデルは複雑な推論タスクの処理能力が大幅に向上しています。たとえば、AIME 2025テストでは、モデルの正解率が前のバージョンの70％から現在のバージョンの87.5％に向上しています。この進歩は、推論過程での思考深度の強化によるものです。AIMEテストセットでは、以前のモデルは平均で1問あたり12Kのトークンを使用していましたが、新しいバージョンでは平均で1問あたり23Kのトークンを使用しています。

その他の利点

改善された推論能力に加えて、このバージョンは幻覚率を低下させ、関数呼び出しのサポートを強化し、より良い雰囲気エンコーディング体験を提供します。

📦 インストール

DeepSeek-R1リポジトリを訪問して、DeepSeek-R1-0528をローカルで実行するための詳細情報を取得してください。

💻 使用例

システムプロンプト

公式のDeepSeekウェブサイト/アプリでは、特定の日付を含む同じシステムプロンプトを使用しています。

このアシスタントはDeepSeek-R1で、深度求索社によって作成されました。
今日は{current date}です。

例：

このアシスタントはDeepSeek-R1で、深度求索社によって作成されました。
今日は2025年5月28日、月曜日です。

温度パラメータ

ウェブページとアプリ環境では、温度パラメータ$T_{model}$は0.6に設定されています。

ファイルアップロードプロンプト

ファイルアップロードの場合は、次のテンプレートを使用してプロンプトを作成してください。{file_name}、{file_content}、{question}はパラメータです。

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

ウェブ検索プロンプト

ウェブ検索の場合は、{search_results}、{cur_date}、{question}がパラメータです。中国語のクエリの場合は、次のプロンプトを使用します。

search_answer_zh_template = \
'''# 以下の内容は、ユーザーが送信したメッセージに基づく検索結果です。
{search_results}
私があなたに与えた検索結果の中で、各結果は[webpage X begin]...[webpage X end]の形式になっています。Xは各記事の数字インデックスを表します。適切な場合は、文章の末尾にコンテキストを引用してください。回答の該当部分に、引用番号[citation:X]の形式でコンテキストを引用してください。ある文章が複数のコンテキストに由来する場合は、すべての関連する引用番号を列挙してください。たとえば[citation:3][citation:5]のように、引用を最後にまとめて返さず、回答の該当部分に列挙するようにしてください。
回答する際は、以下の点に注意してください。
- 今日は{cur_date}です。
- 検索結果のすべての内容がユーザーの質問に密接に関連しているわけではないため、質問に合わせて検索結果を選別する必要があります。
- 列挙型の質問（すべてのフライト情報を列挙するなど）の場合は、回答を10項目以内に抑え、ユーザーに検索元を参照して完全な情報を取得することを伝えてください。情報が完全で最も関連性の高い列挙項目を優先的に提供してください。必要がない限り、検索結果に含まれない内容を勝手に伝えないでください。
- 創作型の質問（論文を書くなど）の場合は、必ず本文の段落内に該当する参照番号を引用してください。たとえば[citation:3][citation:5]のように、文章の末尾だけに引用しないでください。ユーザーの質問の要求を解釈して要約し、適切な形式を選択し、検索結果を十分に活用して重要な情報を抽出し、ユーザーの要求に合致し、思想的な深みがあり、創造性と専門性に富んだ回答を生成してください。創作の長さはできるだけ長くし、各ポイントの論述ではユーザーの意図を推測し、できるだけ多角的な回答ポイントを提供し、かつ情報量が多く、詳細に論述してください。
- 回答が長い場合は、できるだけ構造化し、段落でまとめてください。項目別に回答する場合は、できるだけ5項目以内に抑え、関連する内容をまとめてください。
- 客観的な質問に対する回答で、質問の答えが非常に短い場合は、関連する情報を1～2文追加して内容を充実させてください。
- ユーザーの要求と回答内容に合わせて、適切で見やすい回答形式を選択し、読みやすさを確保してください。
- 回答は複数の関連するウェブページを総合して行い、同じウェブページを繰り返し引用しないでください。
- ユーザーから要求がない限り、回答の言語はユーザーの質問の言語と一致させてください。
# ユーザーのメッセージは次のとおりです。
{question}'''

📚 ドキュメント

評価結果

DeepSeek-R1-0528

すべてのモデルで、最大生成長は64Kトークンに設定されています。サンプリングが必要なベンチマークテストでは、温度0.6、top-p値0.95を使用し、各クエリに対して16個の応答を生成してpass@1を推定します。

| カテゴリ | ベンチマークテスト（指標） | DeepSeek R1 | DeepSeek R1 0528 | | ---- | ---- | ---- | ---- | | 汎用 | MMLU-Redux (EM) | 92.9 | 93.4 | | 汎用 | MMLU-Pro (EM) | 84.0 | 85.0 | | 汎用 | GPQA-Diamond (Pass@1) | 71.5 | 81.0 | | 汎用 | SimpleQA (Correct) | 30.1 | 27.8 | | 汎用 | FRAMES (Acc.) | 82.5 | 83.0 | | 汎用 | Humanity's Last Exam (Pass@1) | 8.5 | 17.7 | | コード | LiveCodeBench (2408 - 2505) (Pass@1) | 63.5 | 73.3 | | コード | Codeforces-Div1 (Rating) | 1530 | 1930 | | コード | SWE Verified (Resolved) | 49.2 | 57.6 | | コード | Aider-Polyglot (Acc.) | 53.3 | 71.6 | | 数学 | AIME 2024 (Pass@1) | 79.8 | 91.4 | | 数学 | AIME 2025 (Pass@1) | 70.0 | 87.5 | | 数学 | HMMT 2025 (Pass@1) | 41.7 | 79.4 | | 数学 | CNMO 2024 (Pass@1) | 78.8 | 86.9 | | ツール | BFCL_v3_MultiTurn (Acc) | - | 37.0 | | ツール | Tau-Bench (Pass@1) | - | 53.5(航空会社)/63.9(小売業) |

注意：SWE-Verifiedでのモデルの性能評価には、エージェントなしのフレームワークを使用しています。HLEテストセットの純粋なテキストプロンプトのみを評価しています。Tau-bench評価では、GPT - 4.1がユーザーの役割を果たします。

DeepSeek-R1-0528-Qwen3-8B

同時に、DeepSeek-R1-0528の思考連鎖をQwen3 8B Baseに蒸留して後期トレーニングを行い、DeepSeek-R1-0528-Qwen3-8Bを得ました。このモデルはAIME 2024でオープンソースモデルの中で最高レベルの性能を発揮し、Qwen3 8Bよりも10.0％高く、Qwen3 - 235B - thinkingと同等の性能を示します。DeepSeek-R1-0528の思考連鎖は、推論モデルの学術研究と小規模モデルに特化した産業開発の両方にとって重要であると考えられます。

	AIME 24	AIME 25	HMMT Feb 25	GPQA Diamond	LiveCodeBench (2408 - 2505)
Qwen3 - 235B - A22B	85.7	81.5	62.5	71.1	66.5
Qwen3 - 32B	81.4	72.9	-	68.4	-
Qwen3 - 8B	76.0	67.3	-	62.0	-
Phi - 4 - Reasoning - Plus - 14B	81.3	78.0	53.6	69.3	-
Gemini - 2.5 - Flash - Thinking - 0520	82.3	72.0	64.2	82.8	62.3
o3 - mini (medium)	79.6	76.7	53.3	76.8	65.9
DeepSeek - R1 - 0528 - Qwen3 - 8B	86.0	76.3	61.5	61.1	60.5

チャットサイトとAPIプラットフォーム

DeepSeekの公式ウェブサイトchat.deepseek.comで、DeepSeek-R1とチャットし、「DeepThink」ボタンをオンにすることができます。

DeepSeekプラットフォームplatform.deepseek.comでは、OpenAI互換のAPIも提供しています。

📄 ライセンス

このコードリポジトリはMITライセンスに従います。DeepSeek-R1モデルの使用もMITライセンスに従います。DeepSeek-R1シリーズ（BaseとChatを含む）は、商用利用と蒸留をサポートしています。

🔧 技術詳細

量子化環境と修正

量子化操作は、960GBのメモリと800GBのスワップ空間を備えた8x H100 80GBノードで行われました。AutoAWQ 0.2.8、transformers 4.48.0、torch 2.6.0を使用しました。ここで言及されている問題を解決するために、modeling_deepseek.pyを若干修正しました。

量子化プロセス

UnslothのBF16バージョンを起点としましたが、AWQ量子化スクリプトを実行する前に、config.jsonからquantization_config部分を削除しました。3回目の試行が成功し、前の2回の試行は15時間以上実行した後にメモリ不足で失敗しました。最後の試行では約18時間かかりました。

📚 引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}