ホーム

Orpheus 3b 0.1 Ft GGUF

Mungertによって開発

Llama-3-8Bアーキテクチャを基に最適化された超低ビット量子化モデル。IQ-DynamicGate技術により1-2ビット精度の適応的量子化を実現し、メモリ制約環境に適しています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #超低ビット量子化 #エッジデバイス最適化 #動的精度割り当て

ダウンロード数 1,427

リリース時間 : 4/3/2025

モデル概要

このモデルは動的精度割り当てと主要コンポーネント保護技術により、極めて高いメモリ効率を維持しながら低ビット量子化の精度を大幅に向上させ、特にエッジデバイスやCPU推論に最適です。

モデル特徴

IQ-DynamicGate超低ビット量子化

階層化戦略により1-2ビット精度の適応的量子化を実現。上位25%層と下位25%層にIQ4_XS、中間50%層にIQ2_XXS/IQ3_Sを使用し、誤差伝播を大幅に低減。

主要コンポーネント保護

埋め込み層と出力層にQ5_K量子化を適用して保護し、標準量子化比38%の誤差伝播削減。

メモリ効率最適化

Llama-3-8Bで検証済み。IQ1_Mモデルは困惑度43.9%低減、メモリ増加は僅か0.3GB。

モデル能力

テキスト生成

低メモリ推論

エッジデバイス展開

使用事例

リソース制約環境展開

エッジデバイスAIアシスタント

メモリ制限のあるIoTデバイスにチャットボットを展開

IQ2_S量子化版は僅か2.9GBメモリ使用、困惑度9.02

CPUリアルタイム推論

GPUなしサーバーでバッチテキスト生成を実行

IQ4_KバージョンはCPU上で246トークン/秒の推論速度

量子化技術研究

超低ビットアルゴリズム検証

1-3ビット量子化新アルゴリズムのテストベンチとして

IQ1_SからIQ4_Kまでの全シリーズ量子化比較データを提供

library_name: transformers language:

en pipeline_tag: text-to-speech license: apache-2.0 base_model:
meta-llama/Llama-3.2-3B-Instruct
canopylabs/orpheus-3b-0.1-pretrained

orpheus-3b-0.1-ft GGUFモデル

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

最新の量子化手法では、Llama-3-8Bで実証済みの改善を伴う超低ビットモデル（1-2ビット）向けの精度適応型量子化を導入しています。このアプローチでは、レイヤーごとの戦略を使用して精度を維持しながら、極めて効率的なメモリ使用を実現しています。

ベンチマークコンテキスト

すべてのテストはLlama-3-8B-Instructを使用して実施：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセットを使用

手法

動的精度割り当て:
- 最初と最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中間の50% → IQ2_XXS/IQ3_S（効率向上）
重要コンポーネント保護:
- 埋め込み層と出力層はQ5_Kを使用
- 標準の1-2ビットと比べて誤差伝搬を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キーポイント:

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズ差は混合量子化のオーバーヘッドを反映

主な改善点:

🔥 IQ1_Mは43.9%のパープレキシティ改善（27.46 → 15.41）
🚀 IQ2_Sは36.9%のパープレキシティ削減、サイズ増加は0.2GBのみ
⚡ IQ1_Sは1ビット量子化でも39.7%の精度向上を維持

トレードオフ:

すべてのバリアントでサイズが若干増加（0.1-0.3GB）
推論速度は同等（<5%の差）

これらのモデルの使用場面

📌 GPU VRAMにモデルを収める場合

✔ メモリ制約のある展開

✔ 1-2ビットの誤差が許容されるCPUおよびエッジデバイス

✔ 超低ビット量子化の研究

適切なモデルフォーマットの選択

適切なモデルフォーマットの選択は、ハードウェア能力とメモリ制約に依存します。

BF16（Brain Float 16）– BF16アクセラレーションが利用可能な場合に使用

高速計算のために設計された16ビット浮動小数点フォーマットで、良好な精度を保持。
FP32と同様のダイナミックレンジを提供しつつ、メモリ使用量を削減。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨（デバイスの仕様を確認）。
FP32と比べてメモリフットプリントを削減した高性能推論に最適。

📌 BF16を使用する場合:
✔ ハードウェアがBF16をネイティブサポート（例：新しいGPU、TPU）。
✔ より高い精度が必要で、メモリを節約したい場合。
✔ モデルを別のフォーマットに再量子化する予定がある場合。

📌 BF16を避ける場合:
❌ ハードウェアがBF16をサポートしていない（FP32にフォールバックし、遅くなる可能性あり）。
❌ BF16最適化がない古いデバイスとの互換性が必要な場合。

F16（Float 16）– BF16より広くサポート

16ビット浮動小数点で高精度だが、BF16より値の範囲が狭い。
FP16アクセラレーションをサポートする多くのデバイス（多くのGPUや一部のCPU）で動作。
BF16より若干精度が低いが、一般的に推論には十分。

📌 F16を使用する場合:
✔ ハードウェアがFP16をサポートしているが、BF16はサポートしていない場合。
✔ 速度、メモリ使用量、精度のバランスが必要な場合。
✔ GPUやFP16計算に最適化されたデバイスで実行する場合。

📌 F16を避ける場合:
❌ デバイスがネイティブFP16サポートを欠いている（予想より遅くなる可能性あり）。
❌ メモリ制約がある場合。

量子化モデル（Q4_K、Q6_K、Q8など）– CPUおよび低VRAM推論用

量子化はモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持します。

低ビットモデル（Q4_K） → 最小メモリ使用に最適、精度は低め。
高ビットモデル（Q6_K、Q8_0） → 精度向上、より多くのメモリが必要。

📌 量子化モデルを使用する場合:
✔ CPUで推論を実行し、最適化されたモデルが必要な場合。
✔ デバイスのVRAMが低く、フル精度モデルをロードできない場合。
✔ メモリフットプリントを削減しつつ、合理的な精度を維持したい場合。

📌 量子化モデルを避ける場合:
❌ 最大精度が必要な場合（フル精度モデルが適している）。
❌ ハードウェアがより高精度なフォーマット（BF16/F16）に対応する十分なVRAMを持っている場合。

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは極めて効率的なメモリ使用に最適化されており、低電力デバイスやメモリが重要な制約となる大規模展開に理想的です。

IQ3_XS: 超低ビット量子化（3ビット）で極めて効率的なメモリ使用。
- 使用例: 超低メモリデバイスでQ4_Kでも大きすぎる場合に最適。
- トレードオフ: 高ビット量子化と比べて精度が低い。
IQ3_S: 最大のメモリ効率のための小さなブロックサイズ。
- 使用例: IQ3_XSが過剰な低メモリデバイスに最適。
IQ3_M: IQ3_Sより精度が向上した中ブロックサイズ。
- 使用例: IQ3_Sが制限となる低メモリデバイスに適している。
Q4_K: 4ビット量子化でブロック単位最適化により精度向上。
- 使用例: Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0: 純粋な4ビット量子化、ARMデバイス向けに最適化。
- 使用例: ARMベースデバイスまたは低メモリ環境に最適。

要約表: モデルフォーマット選択

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16対応GPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応デバイス	BF16が利用できない場合のGPU推論
Q4_K	中～低	低	CPUまたは低VRAMデバイス	メモリ制約環境に最適
Q6_K	中	中	メモリが多いCPU	量子化されつつ精度が良い
Q8_0	高	中	VRAMが十分なCPU/GPU	量子化モデル中最も高精度
IQ3_XS	非常に低い	非常に低い	超低メモリデバイス	極めて効率的なメモリ使用、低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス向けに最適化