DeepSeek - R1 - 0528 - Qwen3 - 8B量子化オープンソースモデル - 推論の向上と幻覚の軽減、多様な言語タスクに適用

ホーム

Deepseek R1 0528 Qwen3 8B GPTQ Int4 Int8Mix

QuantTrioによって開発

DeepSeek-R1-0528-Qwen3-8Bをベースに開発された量子化バージョンのモデルで、推論能力や幻覚率の低減などの面で著しい向上が見られ、様々な自然言語処理タスクに適しています。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #数学的推論能力の強化 #低幻覚率 #関数呼び出しの最適化

ダウンロード数 154

リリース時間 : 5/30/2025

モデル概要

このモデルは、計算リソースを増やし、アルゴリズムの最適化メカニズムを導入することで、推論の深度と推論能力を大幅に向上させ、数学、プログラミング、一般的な論理などの分野に適用できます。

モデル特徴

推論能力の強化

数学、プログラミング、一般的な論理などの様々なベンチマーク評価で優れた結果を示し、全体的な性能はリーディングモデルに近い水準です。

正解率の向上

AIME 2025テストでは、以前のバージョンの70%から現在のバージョンの87.5%に正解率が向上しました。

幻覚率の低減

モデルが幻覚を生み出す確率を低減しました。

関数呼び出しのサポート強化

関数呼び出しをより適切にサポートします。

コーディング体験の最適化

より良いコーディング体験を提供します。

モデル能力

テキスト生成

数学的推論

プログラミング支援

論理的推論

関数呼び出し

使用事例

数学

AIME 2025テスト

AIME 2025テストでは、正解率が87.5%に達しました。

正解率が70%から87.5%に向上しました。

プログラミング

LiveCodeBenchテスト

LiveCodeBench (2408 - 2505)テストでは、Pass@1が73.3%に達しました。

Pass@1が63.5%から73.3%に向上しました。

🚀 DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix

このモデルは、基礎型のdeepseek-ai/DeepSeek-R1-0528-Qwen3-8Bをベースにしています。

🚀 クイックスタート

【モデル更新日】

2025-05-29
1. 初回コミット

【依存関係】

vllm==0.9.0
transformers==4.52.3

⚠️ 重要な注意事項

新版VLLMを使用する際は、V0推論モードの使用を推奨します。vllmを起動する前に、環境変数を設定してください。

export VLLM_USE_V1=0

【モデルリスト】

ファイルサイズ	最終更新日
`6.9GB`	`2025-05-29`

【モデルのダウンロード】

from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路径")

✨ 主な機能

DeepSeek-R1-0528の概要

DeepSeek R1モデルはマイナーバージョンアップデートを行い、現在のバージョンはDeepSeek-R1-0528です。最新の更新では、DeepSeek R1は追加の計算リソースを活用し、事後学習中にアルゴリズムの最適化メカニズムを導入することで、推論の深さと推論能力を大幅に向上させました。このモデルは、数学、プログラミング、一般論理などのさまざまなベンチマーク評価で優れた性能を示しており、全体的な性能はO3やGemini 2.5 Proなどの主要モデルに近づいています。

前のバージョンと比較すると、アップグレードされたモデルは複雑な推論タスクの処理能力が大幅に向上しています。たとえば、AIME 2025テストでは、モデルの正解率が前のバージョンの70%から現在のバージョンの87.5%に向上しています。この進歩は、推論プロセス中の思考深度の向上に起因しています。AIMEテストセットでは、前のモデルは1問あたり平均12Kトークンを使用していたのに対し、新しいバージョンは1問あたり平均23Kトークンを使用しています。

推論能力の向上に加えて、このバージョンは幻覚率の低減、関数呼び出しのサポート強化、バイブコーディングの体験向上も実現しています。

評価結果

DeepSeek-R1-0528

すべてのモデルで、最大生成長は64Kトークンに設定されています。サンプリングを必要とするベンチマークでは、温度を$0.6$、top-p値を$0.95$に設定し、クエリごとに16の応答を生成してpass@1を推定します。

カテゴリ	ベンチマーク (指標)	DeepSeek R1	DeepSeek R1 0528
一般
	MMLU-Redux (EM)	92.9	93.4
	MMLU-Pro (EM)	84.0	85.0
	GPQA-Diamond (Pass@1)	71.5	81.0
	SimpleQA (Correct)	30.1	27.8
	FRAMES (Acc.)	82.5	83.0
	Humanity's Last Exam (Pass@1)	8.5	17.7
コード
	LiveCodeBench (2408-2505) (Pass@1)	63.5	73.3
	Codeforces-Div1 (Rating)	1530	1930
	SWE Verified (Resolved)	49.2	57.6
	Aider-Polyglot (Acc.)	53.3	71.6
数学
	AIME 2024 (Pass@1)	79.8	91.4
	AIME 2025 (Pass@1)	70.0	87.5
	HMMT 2025 (Pass@1)	41.7	79.4
	CNMO 2024 (Pass@1)	78.8	86.9
ツール
	BFCL_v3_MultiTurn (Acc)	-	37.0
	Tau-Bench (Pass@1)	-	53.5(Airline)/63.9(Retail)

注: SWE-Verifiedでのモデル性能評価にはエージェントレスフレームワークを使用しています。HLEテストセットでは、テキストのみのプロンプトのみを評価しています。Tau-bench評価では、GPT-4.1をユーザーロールとして使用しています。

DeepSeek-R1-0528-Qwen3-8B

同時に、DeepSeek-R1-0528からの思考連鎖を蒸留してQwen3 8B Baseを事後学習し、DeepSeek-R1-0528-Qwen3-8Bを得ました。このモデルは、AIME 2024でオープンソースモデルの中で最先端（SOTA）の性能を達成しており、Qwen3 8Bを+10.0%上回り、Qwen3-235B-thinkingの性能に匹敵しています。DeepSeek-R1-0528からの思考連鎖は、推論モデルの学術研究と小規模モデルに焦点を当てた産業開発の両方にとって重要な意味を持つと考えています。

	AIME 24	AIME 25	HMMT Feb 25	GPQA Diamond	LiveCodeBench (2408-2505)
Qwen3-235B-A22B	85.7	81.5	62.5	71.1	66.5
Qwen3-32B	81.4	72.9	-	68.4	-
Qwen3-8B	76.0	67.3	-	62.0	-
Phi-4-Reasoning-Plus-14B	81.3	78.0	53.6	69.3	-
Gemini-2.5-Flash-Thinking-0520	82.3	72.0	64.2	82.8	62.3
o3-mini (medium)	79.6	76.7	53.3	76.8	65.9
DeepSeek-R1-0528-Qwen3-8B	86.0	76.3	61.5	61.1	60.5

📄 ライセンス

このコードリポジトリはMITライセンスの下でライセンスされています。DeepSeek-R1モデルの使用もMITライセンスの対象となります。DeepSeek-R1シリーズ（BaseとChatを含む）は商用利用と蒸留をサポートしています。

📚 ドキュメント

引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}