ホーム

Phi 2 GGUF

Mungertによって開発

phi-2 は IQ-DynamicGate 超低ビット量子化（1-2 ビット）を採用したテキスト生成モデルで、自然言語処理とコード生成タスクに適しています。

大規模言語モデル複数言語対応オープンソースライセンス:MIT #超低ビット量子化 #精度適応 #エッジデバイス最適化

ダウンロード数 472

リリース時間 : 4/25/2025

モデル概要

phi-2 は超低ビット量子化技術によりメモリ使用を最適化した効率的なテキスト生成モデルで、メモリ制約のある展開環境に適しています。

モデル特徴

超低ビット量子化

IQ-DynamicGate 技術を採用し、1-2 ビット量子化をサポート、メモリ占有量を大幅に削減します。

精度適応量子化

動的精度割り当て戦略により、メモリ効率を維持しながら精度を向上させます。

主要コンポーネント保護

埋め込み層と出力層に Q5_K 量子化を使用し、誤差伝播を軽減します。

モデル能力

テキスト生成

自然言語処理

コード生成

使用事例

メモリ制約のある展開環境

CPU およびエッジデバイス推論

メモリ制約のあるデバイスで効率的なテキスト生成タスクを実行します。

1-2 ビット誤差を許容し、高い推論速度を維持します。

超低ビット量子化研究

量子化技術研究

1-2 ビット量子化がモデル性能に与える影響を調査します。

パープレキシティが大幅に低下し、メモリ占有量が最適化されます。

license: mit license_link: https://huggingface.co/microsoft/phi-2/resolve/main/LICENSE language:

en pipeline_tag: text-generation tags:
nlp
code

phi-2 GGUFモデル

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

最新の量子化手法では、Llama-3-8Bでベンチマーク実証済みの改善を伴う超低ビットモデル（1-2ビット）向けの精度適応型量子化を導入しています。このアプローチでは、レイヤーごとの戦略を使用して精度を維持しながら、極端なメモリ効率を実現しています。

ベンチマークコンテキスト

Llama-3-8B-Instructを使用して実施したすべてのテスト：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセットを使用

手法

動的精度割り当て:
- 最初/最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中間の50% → IQ2_XXS/IQ3_S（効率向上）
重要コンポーネント保護:
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準的な1-2ビットと比べて誤差伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キー:

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズ差は混合量子化のオーバーヘッドを反映

主な改善点:

🔥 IQ1_Mは43.9%のパープレキシティ削減（27.46 → 15.41）
🚀 IQ2_Sは36.9%のパープレキシティ削減ながら僅か0.2GBの増加
⚡ IQ1_Sは1ビット量子化でも39.7%の精度向上を維持

トレードオフ:

すべてのバリアントでわずかなサイズ増加（0.1-0.3GB）
推論速度は同等（<5%の差）

これらのモデルの使用場面

📌 GPU VRAMにモデルを収める場合

✔ メモリ制約のある展開

✔ 1-2ビットの誤差が許容できるCPUおよびエッジデバイス

✔ 超低ビット量子化の研究

適切なモデルフォーマットの選択

適切なモデルフォーマットの選択は、ハードウェア能力とメモリ制約に依存します。

BF16（Brain Float 16）– BF16アクセラレーションが利用可能な場合に使用

高速計算のために設計された16ビット浮動小数点フォーマットで、良好な精度を保持。
FP32と同様のダイナミックレンジを提供しながら、メモリ使用量を削減。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨（デバイスの仕様を確認）。
FP32と比べてメモリフットプリントを削減した高性能推論に最適。

📌 BF16を使用する場合:
✔ ハードウェアがBF16をネイティブサポート（例：新しいGPU、TPU）。
✔ より高い精度を維持しながらメモリを節約したい場合。
✔ モデルを別のフォーマットに再量子化する予定がある場合。

📌 BF16を避ける場合:
❌ ハードウェアがBF16をサポートしていない（FP32にフォールバックして遅くなる可能性）。
❌ BF16最適化がない古いデバイスとの互換性が必要な場合。

F16（Float 16）– BF16より広くサポート

16ビット浮動小数点の高精度フォーマットだが、BF16より値の範囲が狭い。
FP16アクセラレーションをサポートするほとんどのデバイス（多くのGPUや一部のCPU）で動作。
BF16より数値精度はやや低いが、一般的に推論には十分。

📌 F16を使用する場合:
✔ ハードウェアがFP16をサポートしているがBF16をサポートしていない場合。
✔ 速度、メモリ使用量、精度のバランスが必要な場合。
✔ GPUやFP16計算に最適化されたデバイスで実行する場合。

📌 F16を避ける場合:
❌ デバイスがネイティブFP16サポートを欠いている（予想より遅くなる可能性）。
❌ メモリ制約がある場合。

量子化モデル（Q4_K、Q6_K、Q8など）– CPU＆低VRAM推論向け

量子化はモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持。

低ビットモデル（Q4_K） → 最小メモリ使用に最適、精度は低め。
高ビットモデル（Q6_K、Q8_0） → より良い精度、より多くのメモリを必要。

📌 量子化モデルを使用する場合:
✔ CPUで推論を実行し、最適化されたモデルが必要な場合。
✔ デバイスのVRAMが低く、フル精度モデルをロードできない場合。
✔ 合理的な精度を保ちながらメモリフットプリントを削減したい場合。

📌 量子化モデルを避ける場合:
❌ 最大精度が必要な場合（フル精度モデルが適している）。
❌ ハードウェアがより高精度なフォーマット（BF16/F16）に対応する十分なVRAMを持っている場合。

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは極端なメモリ効率のために最適化されており、低電力デバイスやメモリが重大な制約となる大規模展開に最適。

IQ3_XS: 超低ビット量子化（3ビット）で極端なメモリ効率。
- 使用例: Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ: 高ビット量子化と比べて精度が低い。
IQ3_S: 最大メモリ効率のための小さなブロックサイズ。
- 使用例: IQ3_XSが過度に攻撃的である低メモリデバイスに最適。
IQ3_M: IQ3_Sより良い精度の中ブロックサイズ。
- 使用例: IQ3_Sが制限的である低メモリデバイスに適している。
Q4_K: より良い精度のためのブロック単位最適化を伴う4ビット量子化。
- 使用例: Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0: ARMデバイス向けに最適化された純粋な4ビット量子化。
- 使用例: ARMベースデバイスや低メモリ環境に最適。

要約表: モデルフォーマット選択

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応GPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応デバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約環境に最適
Q6_K	中	中	メモリが多いCPU	量子化されつつより良い精度
Q8_0	高	中	VRAMが十分なCPU/GPU	量子化モデル中最も高精度
IQ3_XS	非常に低い	非常に低い	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス向けに最適化