🚀 DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix
このモデルは、基礎型のdeepseek-ai/DeepSeek-R1-0528-Qwen3-8Bをベースにしています。
🚀 クイックスタート
【モデル更新日】
2025-05-29
1. 初回コミット
【依存関係】
vllm==0.9.0
transformers==4.52.3
⚠️ 重要な注意事項
新版VLLMを使用する際は、V0推論モードの使用を推奨します。vllmを起動する前に、環境変数を設定してください。
export VLLM_USE_V1=0
【モデルリスト】
ファイルサイズ |
最終更新日 |
6.9GB |
2025-05-29 |
【モデルのダウンロード】
from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路径")
✨ 主な機能
DeepSeek-R1-0528の概要
DeepSeek R1モデルはマイナーバージョンアップデートを行い、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1は追加の計算リソースを活用し、事後学習中にアルゴリズムの最適化メカニズムを導入することで、推論の深さと推論能力を大幅に向上させました。このモデルは、数学、プログラミング、一般論理などのさまざまなベンチマーク評価で優れた性能を示しており、全体的な性能はO3やGemini 2.5 Proなどの主要モデルに近づいています。
前のバージョンと比較すると、アップグレードされたモデルは複雑な推論タスクの処理能力が大幅に向上しています。たとえば、AIME 2025テストでは、モデルの正解率が前のバージョンの70%から現在のバージョンの87.5%に向上しています。この進歩は、推論プロセス中の思考深度の向上に起因しています。AIMEテストセットでは、前のモデルは1問あたり平均12Kトークンを使用していたのに対し、新しいバージョンは1問あたり平均23Kトークンを使用しています。
推論能力の向上に加えて、このバージョンは幻覚率の低減、関数呼び出しのサポート強化、バイブコーディングの体験向上も実現しています。
評価結果
DeepSeek-R1-0528
すべてのモデルで、最大生成長は64Kトークンに設定されています。サンプリングを必要とするベンチマークでは、温度を$0.6$、top-p値を$0.95$に設定し、クエリごとに16の応答を生成してpass@1を推定します。
カテゴリ |
ベンチマーク (指標) |
DeepSeek R1 |
DeepSeek R1 0528 |
一般 |
|
|
|
|
MMLU-Redux (EM) |
92.9 |
93.4 |
|
MMLU-Pro (EM) |
84.0 |
85.0 |
|
GPQA-Diamond (Pass@1) |
71.5 |
81.0 |
|
SimpleQA (Correct) |
30.1 |
27.8 |
|
FRAMES (Acc.) |
82.5 |
83.0 |
|
Humanity's Last Exam (Pass@1) |
8.5 |
17.7 |
コード |
|
|
|
|
LiveCodeBench (2408-2505) (Pass@1) |
63.5 |
73.3 |
|
Codeforces-Div1 (Rating) |
1530 |
1930 |
|
SWE Verified (Resolved) |
49.2 |
57.6 |
|
Aider-Polyglot (Acc.) |
53.3 |
71.6 |
数学 |
|
|
|
|
AIME 2024 (Pass@1) |
79.8 |
91.4 |
|
AIME 2025 (Pass@1) |
70.0 |
87.5 |
|
HMMT 2025 (Pass@1) |
41.7 |
79.4 |
|
CNMO 2024 (Pass@1) |
78.8 |
86.9 |
ツール |
|
|
|
|
BFCL_v3_MultiTurn (Acc) |
- |
37.0 |
|
Tau-Bench (Pass@1) |
- |
53.5(Airline)/63.9(Retail) |
注: SWE-Verifiedでのモデル性能評価にはエージェントレスフレームワークを使用しています。HLEテストセットでは、テキストのみのプロンプトのみを評価しています。Tau-bench評価では、GPT-4.1をユーザーロールとして使用しています。
DeepSeek-R1-0528-Qwen3-8B
同時に、DeepSeek-R1-0528からの思考連鎖を蒸留してQwen3 8B Baseを事後学習し、DeepSeek-R1-0528-Qwen3-8Bを得ました。このモデルは、AIME 2024でオープンソースモデルの中で最先端(SOTA)の性能を達成しており、Qwen3 8Bを+10.0%上回り、Qwen3-235B-thinkingの性能に匹敵しています。DeepSeek-R1-0528からの思考連鎖は、推論モデルの学術研究と小規模モデルに焦点を当てた産業開発の両方にとって重要な意味を持つと考えています。
|
AIME 24 |
AIME 25 |
HMMT Feb 25 |
GPQA Diamond |
LiveCodeBench (2408-2505) |
Qwen3-235B-A22B |
85.7 |
81.5 |
62.5 |
71.1 |
66.5 |
Qwen3-32B |
81.4 |
72.9 |
- |
68.4 |
- |
Qwen3-8B |
76.0 |
67.3 |
- |
62.0 |
- |
Phi-4-Reasoning-Plus-14B |
81.3 |
78.0 |
53.6 |
69.3 |
- |
Gemini-2.5-Flash-Thinking-0520 |
82.3 |
72.0 |
64.2 |
82.8 |
62.3 |
o3-mini (medium) |
79.6 |
76.7 |
53.3 |
76.8 |
65.9 |
DeepSeek-R1-0528-Qwen3-8B |
86.0 |
76.3 |
61.5 |
61.1 |
60.5 |
📄 ライセンス
このコードリポジトリはMITライセンスの下でライセンスされています。DeepSeek-R1モデルの使用もMITライセンスの対象となります。DeepSeek-R1シリーズ(BaseとChatを含む)は商用利用と蒸留をサポートしています。
📚 ドキュメント
引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
お問い合わせ
ご質問がある場合は、イシューを作成するか、service@deepseek.comまでご連絡ください。