🚀 DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact
このリポジトリは、Int4 + 選択的Int8のGPTQ DeepSeek-R1-0528
モデルを提供します。量子化に対して高い感度を持つレイヤーのみがInt8に維持され、残りはInt4になります。これにより、最小限のファイルサイズのオーバーヘッドで生成品質を維持します。
🚀 クイックスタート
このモデルを使用するには、まず必要な依存関係をインストールし、モデルをダウンロードする必要があります。以下に具体的な手順を示します。
✨ 主な機能
- Int4 + 選択的Int8のGPTQ量子化方式を採用し、生成品質を維持しつつファイルサイズを抑えます。
- 複数のバリアントを提供し、ハードウェアと品質要件に合わせて選択できます。
- 推論精度が向上し、ホールミネーション率が低減されます。
- 関数呼び出しのサポートが強化され、バイブコーディングの体験が向上します。
📦 インストール
依存関係のインストール
vllm==0.9.0
transformers==4.52.3
モデルのダウンロード
from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")
💻 使用例
基本的な使用法
from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")
📚 ドキュメント
モデルの概要
ベースモデルは deepseek-ai/DeepSeek-R1-0528 です。
バリアントの概要
バリアント |
特徴 |
ファイルサイズ |
推奨シナリオ |
Lite |
最も重要なレイヤーのみがInt8にアップグレードされ、サイズは純粋なInt4に近い |
355 GB |
リソースが制限された軽量サーバーのデプロイメント |
Compact |
より多くのInt8レイヤーがあり、比較的高い出力品質 |
414 GB |
VRAMが十分なデプロイメントで、回答品質に重点を置く場合(例:8 × A100) |
Medium |
Compactに加えて、完全にInt8のアテンションレイヤーがあり、高品質で長文脈の損失が少ない |
445 GB |
VRAMが豊富なデプロイメントで、最高の回答品質と高い同時実行性が必要な場合(例:8 × H20) |
新しいvLLMバージョンに関する注意事項
⚠️ 重要提示
vLLM == 0.9.0はまだMoEモジュールのレイヤーごとの量子化をネイティブにサポートしていません。gptq_marlin.pyにget_moe_quant_methodを追加して暫定的な修正を行っています。上流のPRがマージされるまで、このリポジトリに提供されているファイルで元のファイルを置き換えてください。
💡 使用建议
vLLMを起動する前に、環境変数を設定してください。
export VLLM_USE_V1=0
モデルの更新日
2025-05-31
1. fast commit
モデルの一覧
ファイルサイズ |
最新更新日 |
414GB |
2025-06-01 |
🔧 技術詳細
DeepSeek R1モデルの概要
DeepSeek R1モデルはマイナーバージョンのアップグレードを経ており、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1は計算リソースを増やし、事後学習中にアルゴリズムの最適化メカニズムを導入することで、推論能力と推論の深さを大幅に向上させました。このモデルは、数学、プログラミング、一般論理などのさまざまなベンチマーク評価で優れた性能を発揮しています。その全体的な性能は、O3やGemini 2.5 Proなどの主要なモデルに近づいています。
評価結果
カテゴリ |
ベンチマーク (指標) |
DeepSeek R1 |
DeepSeek R1 0528 |
一般 |
|
|
|
|
MMLU-Redux (EM) |
92.9 |
93.4 |
|
MMLU-Pro (EM) |
84.0 |
85.0 |
|
GPQA-Diamond (Pass@1) |
71.5 |
81.0 |
|
SimpleQA (Correct) |
30.1 |
27.8 |
|
FRAMES (Acc.) |
82.5 |
83.0 |
|
Humanity's Last Exam (Pass@1) |
8.5 |
17.7 |
コード |
|
|
|
|
LiveCodeBench (2408 - 2505) (Pass@1) |
63.5 |
73.3 |
|
Codeforces - Div1 (Rating) |
1530 |
1930 |
|
SWE Verified (Resolved) |
49.2 |
57.6 |
|
Aider - Polyglot (Acc.) |
53.3 |
71.6 |
数学 |
|
|
|
|
AIME 2024 (Pass@1) |
79.8 |
91.4 |
|
AIME 2025 (Pass@1) |
70.0 |
87.5 |
|
HMMT 2025 (Pass@1) |
41.7 |
79.4 |
|
CNMO 2024 (Pass@1) |
78.8 |
86.9 |
ツール |
|
|
|
|
BFCL_v3_MultiTurn (Acc) |
- |
37.0 |
|
Tau - Bench (Pass@1) |
- |
53.5(Airline)/63.9(Retail) |
注意事項
- Agentlessフレームワークを使用してSWE - Verifiedでのモデル性能を評価しています。
- HLEテストセットではテキストのみのプロンプトを評価しています。
- Tau - bench評価ではGPT - 4.1をユーザーロールとして使用しています。
📄 ライセンス
このコードリポジトリは MIT License の下でライセンスされています。DeepSeek - R1モデルの使用も MIT License に従います。DeepSeek - R1シリーズ(BaseとChatを含む)は商用利用と蒸留をサポートしています。
引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
お問い合わせ
何か質問がある場合は、イシューを作成するか、service@deepseek.com までご連絡ください。