DeepSeek-R1-0528-GPTQ量子化モデルのオープンソース化 - ファイルサイズを縮小し、生成品質を保証する

ホーム

Deepseek R1 0528 GPTQ Int4 Int8Mix Compact

QuantTrioによって開発

DeepSeek-R1-0528モデルのGPTQ量子化バージョンで、Int4 + 選択的Int8の量子化方式を採用し、生成品質を保ちながらファイルサイズを縮小します。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #混合精度量子化 #高効率推論 #長文脈処理

ダウンロード数 258

リリース時間 : 6/1/2025

モデル概要

このモデルはDeepSeek-R1-0528の量子化バージョンで、Int4とInt8の混合量子化技術を通じて、モデルの推論速度とメモリ使用量を最適化し、さまざまなハードウェア構成のデプロイメントシナリオに適しています。

モデル特徴

混合量子化技術

Int4 + 選択的Int8の量子化方式を採用し、量子化に敏感な層のみInt8を使用し、それ以外の層はInt4を使用して、生成品質とファイルサイズをバランスさせます。

複数の量子化バリアント

Lite、Compact、Mediumの3種類の量子化バリアントを提供し、さまざまなハードウェア構成と品質要求に対応します。

最適化された推論性能

層ごとの細粒度量子化により、純粋なInt4量子化による推論精度の低下問題を大幅に軽減します。

強化された推論能力

前バージョンと比較して、複雑な推論タスクの処理能力が大幅に向上しており、数学問題やプログラミングの課題などにも対応できます。

モデル能力

複雑な論理推論

数学問題の解決

コード生成と理解

長文テキスト生成

多輪対話

使用事例

教育

数学コンテストの問題解決

AIMEなどの数学コンテストの問題を解く

AIME 2025テストでの正解率は87.5%

プログラミング教育

プログラミング学習とコードデバッグを支援する

LiveCodeBenchテストでのPass@1は73.3%

ソフトウェア開発

コード生成

要求に応じて高品質のコードを生成する

SWE Verifiedテストでの解決率は57.6%

コードレビュー

コードを分析して改善提案を提供する

研究

学術質問応答

複雑な学術問題に回答する

GPQA - DiamondテストでのPass@1は81.0%

🚀 DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact

このリポジトリは、Int4 + 選択的Int8のGPTQ DeepSeek-R1-0528 モデルを提供します。量子化に対して高い感度を持つレイヤーのみがInt8に維持され、残りはInt4になります。これにより、最小限のファイルサイズのオーバーヘッドで生成品質を維持します。

🚀 クイックスタート

このモデルを使用するには、まず必要な依存関係をインストールし、モデルをダウンロードする必要があります。以下に具体的な手順を示します。

✨ 主な機能

Int4 + 選択的Int8のGPTQ量子化方式を採用し、生成品質を維持しつつファイルサイズを抑えます。
複数のバリアントを提供し、ハードウェアと品質要件に合わせて選択できます。
推論精度が向上し、ホールミネーション率が低減されます。
関数呼び出しのサポートが強化され、バイブコーディングの体験が向上します。

📦 インストール

依存関係のインストール

vllm==0.9.0
transformers==4.52.3

モデルのダウンロード

from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")

💻 使用例

基本的な使用法

from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")

📚 ドキュメント

モデルの概要

ベースモデルは deepseek-ai/DeepSeek-R1-0528 です。

バリアントの概要

バリアント	特徴	ファイルサイズ	推奨シナリオ
Lite	最も重要なレイヤーのみがInt8にアップグレードされ、サイズは純粋なInt4に近い	355 GB	リソースが制限された軽量サーバーのデプロイメント
Compact	より多くのInt8レイヤーがあり、比較的高い出力品質	414 GB	VRAMが十分なデプロイメントで、回答品質に重点を置く場合（例：8 × A100）
Medium	Compactに加えて、完全にInt8のアテンションレイヤーがあり、高品質で長文脈の損失が少ない	445 GB	VRAMが豊富なデプロイメントで、最高の回答品質と高い同時実行性が必要な場合（例：8 × H20）

新しいvLLMバージョンに関する注意事項

⚠️ 重要提示

vLLM == 0.9.0はまだMoEモジュールのレイヤーごとの量子化をネイティブにサポートしていません。gptq_marlin.pyにget_moe_quant_methodを追加して暫定的な修正を行っています。上流のPRがマージされるまで、このリポジトリに提供されているファイルで元のファイルを置き換えてください。

💡 使用建议

vLLMを起動する前に、環境変数を設定してください。

export VLLM_USE_V1=0

モデルの更新日

2025-05-31
1. fast commit

モデルの一覧

ファイルサイズ	最新更新日
`414GB`	`2025-06-01`

🔧 技術詳細

DeepSeek R1モデルの概要

DeepSeek R1モデルはマイナーバージョンのアップグレードを経ており、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1は計算リソースを増やし、事後学習中にアルゴリズムの最適化メカニズムを導入することで、推論能力と推論の深さを大幅に向上させました。このモデルは、数学、プログラミング、一般論理などのさまざまなベンチマーク評価で優れた性能を発揮しています。その全体的な性能は、O3やGemini 2.5 Proなどの主要なモデルに近づいています。

評価結果

カテゴリ	ベンチマーク (指標)	DeepSeek R1	DeepSeek R1 0528
一般
	MMLU-Redux (EM)	92.9	93.4
	MMLU-Pro (EM)	84.0	85.0
	GPQA-Diamond (Pass@1)	71.5	81.0
	SimpleQA (Correct)	30.1	27.8
	FRAMES (Acc.)	82.5	83.0
	Humanity's Last Exam (Pass@1)	8.5	17.7
コード
	LiveCodeBench (2408 - 2505) (Pass@1)	63.5	73.3
	Codeforces - Div1 (Rating)	1530	1930
	SWE Verified (Resolved)	49.2	57.6
	Aider - Polyglot (Acc.)	53.3	71.6
数学
	AIME 2024 (Pass@1)	79.8	91.4
	AIME 2025 (Pass@1)	70.0	87.5
	HMMT 2025 (Pass@1)	41.7	79.4
	CNMO 2024 (Pass@1)	78.8	86.9
ツール
	BFCL_v3_MultiTurn (Acc)	-	37.0
	Tau - Bench (Pass@1)	-	53.5(Airline)/63.9(Retail)

注意事項

Agentlessフレームワークを使用してSWE - Verifiedでのモデル性能を評価しています。
HLEテストセットではテキストのみのプロンプトを評価しています。
Tau - bench評価ではGPT - 4.1をユーザーロールとして使用しています。

📄 ライセンス

このコードリポジトリは MIT License の下でライセンスされています。DeepSeek - R1モデルの使用も MIT License に従います。DeepSeek - R1シリーズ（BaseとChatを含む）は商用利用と蒸留をサポートしています。

引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}