Qwen2.5 3B Instruct GGUF

Mungertによって開発

IQ-DynamicGate技術を採用した超低ビット量子化(1-2ビット)モデルで、メモリ制約のあるデバイスや効率的な推論シナリオに適しています

大規模言語モデル英語オープンソースライセンス:その他 #超低ビット量子化 #精度適応 #エッジデバイス推論

ダウンロード数 704

リリース時間 : 4/25/2025

モデル概要

Qwen2.5-3B-InstructはQwen2.5-3Bを基にした命令最適化バージョンで、テキスト生成とチャットタスクをサポートします。革新的なIQ-DynamicGate量子化技術により、高精度を維持しながらメモリ使用量を大幅に削減します。

モデル特徴

IQ-DynamicGate量子化技術

階層化戦略による動的精度割り当てを採用し、超低ビット量子化(1-2ビット)でも高い精度を維持

重要コンポーネント保護

埋め込み層と出力層にはより高精度な量子化(Q5_K)を使用し、誤差伝播を低減

マルチフォーマット対応

BF16からIQ3_XSまで様々な量子化フォーマットを提供し、異なるハードウェア要件に対応

メモリ効率

最小量子化バージョンはわずか2.1GBのメモリで動作し、エッジデバイス展開に適しています

モデル能力

テキスト生成

対話システム

命令追従

使用事例

リソース制約環境展開

エッジデバイスAIアシスタント

メモリが限られたエッジデバイスにチャットボットを展開

IQ1_S量子化バージョンはわずか2.1GBのメモリで動作

CPU推論最適化

GPUがないデバイスで大規模言語モデルを実行

Q4_K量子化バージョンはCPU推論に適しています

研究応用

超低ビット量子化研究

1-2ビット量子化がモデル性能に与える影響を研究

IQ-DynamicGate技術は39.7%のパープレキシティ低減を実現

license: other license_name: qwen-research license_link: https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/LICENSE language:

en pipeline_tag: text-generation base_model: Qwen/Qwen2.5-3B tags:
chat library_name: transformers

Qwen2.5-3B-Instruct GGUFモデル

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

最新の量子化手法では、精度適応型量子化を導入した超低ビットモデル（1-2ビット）を実現し、Llama-3-8Bでのベンチマーク検証済みの改善を達成しています。このアプローチでは、レイヤーごとの戦略を用いて精度を維持しながら、極めてメモリ効率の高い設計を実現しています。

ベンチマーク条件

Llama-3-8B-Instructを使用して実施したすべてのテスト：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化手法で同一のプロンプトセットを使用

手法

動的精度割り当て：
- 最初と最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中間の50% → IQ2_XXS/IQ3_S（効率性向上）
重要コンポーネント保護：
- 埋め込み層と出力層にはQ5_Kを使用
- 標準的な1-2ビット量子化と比べて誤差伝播を38%低減

量子化性能比較（Llama-3-8B）

量子化手法	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

凡例:

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズ差異は混合量子化のオーバーヘッドを反映

主な改善点:

🔥 IQ1_Mは43.9%のパープレキシティ低減を達成（27.46 → 15.41）
🚀 IQ2_Sは36.9%のパープレキシティ改善を達成し、サイズ増加は僅か0.2GB
⚡ IQ1_Sは1ビット量子化にも関わらず39.7%の精度向上を維持

トレードオフ:

すべてのバリアントでわずかなサイズ増加（0.1-0.3GB）
推論速度は同等（5%未満の差異）

これらのモデルの使用場面

📌 GPU VRAMにモデルを収める場合

✔ メモリ制約のある環境での展開

✔ 1-2ビットの誤差が許容できるCPUおよびエッジデバイス

✔ 超低ビット量子化の研究

適切なモデルフォーマットの選択

適切なモデルフォーマットの選択は、ハードウェア能力とメモリ制約に依存します。

BF16（Brain Float 16）– BF16アクセラレーションが利用可能な場合に使用

高速計算を可能にしつつ良好な精度を維持する16ビット浮動小数点フォーマット。
FP32と同等のダイナミックレンジを提供しつつ、メモリ使用量を低減。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨（デバイス仕様を確認）。
FP32と比べてメモリフットプリントを削減した高性能推論に最適。

📌 BF16を使用する場合：
✔ ハードウェアがBF16をネイティブサポート（例：新しいGPU、TPU）。
✔ より高い精度が必要でメモリも節約したい場合。
✔ モデルを別のフォーマットに再量子化する計画がある場合。

📌 BF16を避ける場合：
❌ ハードウェアがBF16をサポートしていない（FP32にフォールバックし遅くなる可能性）。
❌ BF16最適化がない古いデバイスとの互換性が必要な場合。

F16（Float 16）– BF16より広くサポート

16ビット浮動小数点で高精度だが、BF16より値の範囲が狭い。
FP16アクセラレーションをサポートするほとんどのデバイスで動作（多くのGPUや一部のCPUを含む）。
BF16より数値精度はわずかに低いが、一般的に推論には十分。

📌 F16を使用する場合：
✔ ハードウェアがFP16をサポートしているがBF16はサポートしていない場合。
✔ 速度、メモリ使用量、精度のバランスが必要な場合。
✔ GPUなどFP16計算に最適化されたデバイスで実行する場合。

📌 F16を避ける場合：
❌ デバイスがネイティブFP16サポートを欠く（期待より遅くなる可能性）。
❌ メモリ制約がある場合。

量子化モデル（Q4_K、Q6_K、Q8など）– CPU＆低VRAM推論用

量子化によりモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持。

低ビットモデル（Q4_K） → 最小メモリ使用に最適、精度は低め。
高ビットモデル（Q6_K、Q8_0） → より良い精度、より多くのメモリを必要。

📌 量子化モデルを使用する場合：
✔ CPUで推論を実行し最適化されたモデルが必要な場合。
✔ デバイスのVRAMが少なく、フル精度モデルをロードできない場合。
✔ 合理的な精度を保ちつつメモリフットプリントを削減したい場合。

📌 量子化モデルを避ける場合：
❌ 最大精度が必要な場合（フル精度モデルが適している）。
❌ ハードウェアがより高精度フォーマット（BF16/F16）に十分なVRAMを持っている場合。

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは極端なメモリ効率のために最適化されており、低電力デバイスやメモリが重大な制約となる大規模展開に理想的。

IQ3_XS: 超低ビット量子化（3ビット）で極端なメモリ効率。
- 使用例: Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ: 高ビット量子化より精度は低い。
IQ3_S: 最大メモリ効率のための小さなブロックサイズ。
- 使用例: IQ3_XSが過度に攻撃的である低メモリデバイスに最適。
IQ3_M: IQ3_Sより良い精度の中規模ブロックサイズ。
- 使用例: IQ3_Sが制限的である低メモリデバイスに適している。
Q4_K: より良い精度のためのブロック単位最適化を施した4ビット量子化。
- 使用例: Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0: ARMデバイス向けに最適化された純粋な4ビット量子化。
- 使用例: ARMベースデバイスや低メモリ環境に最適。

要約表: モデルフォーマット選択

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応GPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応デバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約環境に最適
Q6_K	中	中	より多くのメモリを搭載したCPU	量子化されつつより良い精度
Q8_0	高	中	十分なVRAMを搭載したCPUまたはGPU	量子化モデル中最も高精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス向けに最適化