license: apache-2.0
language:
- en
datasets:
- allenai/RLVR-GSM-MATH-IF-Mixed-Constraints
base_model:
- allenai/OLMo-2-0325-32B-DPO
pipeline_tag: text-generation
library_name: transformers
OLMo-2-0325-32B-Instruct GGUFモデル
IQ-DynamicGateによる超低ビット量子化(1-2ビット)
最新の量子化手法では、精度適応型量子化を導入し、Llama-3-8Bでベンチマーク実証済みの改善を達成しました。このアプローチでは、レイヤーごとの戦略を使用して精度を維持しながら、極めて効率的なメモリ使用を実現しています。
ベンチマーク概要
すべてのテストはLlama-3-8B-Instructで実施:
- 標準的なパープレキシティ評価パイプライン
- 2048トークンのコンテキストウィンドウ
- すべての量子化で同一のプロンプトセットを使用
手法
- 動的精度割り当て:
- 最初/最後の25%レイヤー → IQ4_XS(選択レイヤー)
- 中間50% → IQ2_XXS/IQ3_S(効率向上)
- 重要コンポーネント保護:
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準1-2ビット比で誤差伝播を38%削減
量子化性能比較(Llama-3-8B)
量子化 |
標準PPL |
DynamicGate PPL |
Δ PPL |
標準サイズ |
DGサイズ |
Δサイズ |
標準速度 |
DG速度 |
IQ2_XXS |
11.30 |
9.84 |
-12.9% |
2.5G |
2.6G |
+0.1G |
234s |
246s |
IQ2_XS |
11.72 |
11.63 |
-0.8% |
2.7G |
2.8G |
+0.1G |
242s |
246s |
IQ2_S |
14.31 |
9.02 |
-36.9% |
2.7G |
2.9G |
+0.2G |
238s |
244s |
IQ1_M |
27.46 |
15.41 |
-43.9% |
2.2G |
2.5G |
+0.3G |
206s |
212s |
IQ1_S |
53.07 |
32.00 |
-39.7% |
2.1G |
2.4G |
+0.3G |
184s |
209s |
凡例:
- PPL = パープレキシティ(低いほど良い)
- Δ PPL = 標準からDynamicGateへの変化率
- 速度 = 推論時間(CPU avx2, 2048トークンコンテキスト)
- サイズ差は混合量子化のオーバーヘッドを反映
主な改善点:
- 🔥 IQ1_M は43.9%のパープレキシティ改善(27.46 → 15.41)
- 🚀 IQ2_S は36.9%のパープレキシティ削減(追加メモリ僅か0.2GB)
- ⚡ IQ1_S は1ビット量子化でも39.7%の精度向上を維持
トレードオフ:
- 全バリアントで小幅なサイズ増加(0.1-0.3GB)
- 推論速度は同等(<5%差)
推奨使用場面
📌 GPU VRAMにモデルを収容
✔ メモリ制約のある環境
✔ 1-2ビット誤差が許容されるCPU/エッジデバイス
✔ 超低ビット量子化の研究
適切なモデル形式の選択
最適なモデル形式はハードウェア能力とメモリ制約に依存します。
BF16(Brain Float 16)– BF16加速対応環境向け
- 高速演算と良好な精度を両立する16ビット浮動小数点形式
- FP32と同様のダイナミックレンジでメモリ使用量削減
- BF16加速対応ハードウェア推奨(デバイス仕様要確認)
- FP32比でメモリフットプリント削減した高性能推論向け
📌 BF16推奨条件:
✔ ハードウェアがBF16ネイティブ対応(新型GPU/TPU等)
✔ メモリ節約しつつ高精度が必要
✔ 他形式への再量子化を計画
📌 BF16非推奨条件:
❌ BF16非対応ハードウェア(FP32フォールバックで低速化)
❌ BF16最適化未対応の旧デバイス互換性が必要
F16(Float 16)– BF16より広範な対応
- 16ビット浮動小数点で高精度だがBF16より値範囲が狭い
- FP16加速対応多数デバイス(多くのGPU/一部CPU)で動作
- BF16より数値精度は劣るが推論には概ね十分
📌 F16推奨条件:
✔ FP16対応だがBF16非対応なハードウェア
✔ 速度・メモリ・精度のバランスが必要
✔ GPU等FP16演算最適化デバイスで実行
📌 F16非推奨条件:
❌ FP16ネイティブ非対応デバイス(予想外の低速化)
❌ メモリ制約が厳しい環境
量子化モデル(Q4_K, Q6_K, Q8等)– CPU/低VRAM環境向け
量子化はモデルサイズ・メモリ使用量を削減しつつ精度を可能な限り維持
- 低ビット(Q4_K) → 最小メモリ使用、精度低下あり
- 高ビット(Q6_K, Q8_0) → 高精度、メモリ要求増
📌 量子化モデル推奨条件:
✔ CPU上で最適化モデルが必要
✔ デバイスが低VRAMで完全精度モデルをロード不可
✔ メモリフットプリント削減しつつ適度な精度維持が必要
📌 量子化モデル非推奨条件:
❌ 最高精度が必要(完全精度モデルが優位)
❌ ハードウェアが高精度形式(BF16/F16)に十分なVRAMを保有
超低ビット量子化(IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)
極限のメモリ効率を追求したモデルで、低電力デバイスや大規模展開に最適
-
IQ3_XS:3ビット量子化で極限のメモリ効率
- 用途:Q4_Kでも大きすぎる超低メモリデバイス向け
- トレードオフ:高ビット量子化比で精度低下
-
IQ3_S:最小ブロックサイズで最大メモリ効率
-
IQ3_M:中ブロックサイズでIQ3_Sより高精度
-
Q4_K:4ビット量子化でブロック最適化による高精度
-
Q4_0:純粋4ビット量子化、ARMデバイス向け最適化
モデル形式選択早見表
モデル形式 |
精度 |
メモリ使用量 |
デバイス要件 |
最適用途 |
BF16 |
最高 |
高 |
BF16対応GPU/CPU |
メモリ削減した高速推論 |
F16 |
高 |
高 |
FP16対応デバイス |
BF16非対応GPU推論 |
Q4_K |
中~低 |
低 |
CPU/低VRAMデバイス |
メモリ制約環境向け |
Q6_K |
中 |
中 |
メモリ豊富なCPU |
量子化モデル内で高精度 |
Q8_0 |
高 |
中 |
VRAM十分なCPU/GPU |
量子化モデル中最も高精度 |
IQ3_XS |
極低 |
極低 |
超低メモリデバイス |
極限のメモリ効率 |
Q4_0 |
低 |
低 |
ARM/低メモリデバイス |
llama.cppのARM最適化向け |
包含ファイル詳細
OLMo-2-0325-32B-Instruct-bf16.gguf
- BF16形式で重みを保持
- 他形式への再量子化用
- BF16加速対応デバイス向け
OLMo-2-0325-32B-Instruct-f16.gguf
- F16形式で重みを保持
- FP16対応(BF16非対応)デバイス向け
OLMo-2-0325-32B-Instruct-bf16-q8_0.gguf
- 出力/埋め込み層はBF16維持
- 他レイヤーはQ8_0量子化
- BF16対応環境で量子化版が必要な場合
OLMo-2-0325-32B-Instruct-f16-q8_0.gguf
- 出力/埋め込み層はF16維持
- 他レイヤーはQ8_0量子化
OLMo-2-0325-32B-Instruct-q4_k.gguf
- 出力/埋め込み層はQ8_0量子化
- 他レイヤーはQ4_K量子化
- メモリ制限CPU推論向け
OLMo-2-0325-32B-Instruct-q4_k_s.gguf
- 最小Q4_Kバリアント、精度犠牲でメモリ削減
- 極低メモリ環境向け
OLMo-2-0325-32B-Instruct-q6_k.gguf
- 出力/埋め込み層はQ8_0量子化
- 他レイヤーはQ6_K量子化
OLMo-2-0325-32B-Instruct-q8_0.gguf
OLMo-2-0325-32B-Instruct-iq3_xs.gguf
- IQ3_XS量子化、極限メモリ効率最適化
- 超低メモリデバイス向け
OLMo-2-0325-32B-Instruct-iq3_m.gguf
- IQ3_M量子化、中ブロックサイズで精度向上
- 低メモリデバイス向け
OLMo-2-0325-32B-Instruct-q4_0.gguf
- 純粋Q4_0量子化、ARMデバイス最適化
- 低メモリ環境向け
- 高精度が必要ならIQ4_NL推奨
🚀 本モデルが有用と感じたら
❤ 「いいね」クリックで応援ください!
量子対応セキュリティチェックを備えたAIネットワーク監視アシスタントのテスト協力:
👉 無料ネットワークモニター
💬 テスト方法:
- ページ右下のチャットアイコンをクリック
- AIアシスタントタイプを選択:
TurboLLM
(GPT-4-mini基盤)
FreeLLM
(オープンソース)
TestLLM
(実験的CPU専用)
現在の検証内容
小型オープンソースモデルのAIネットワーク監視における限界に挑戦:
- ライブネットワークサービスへの関数呼び出し
- 以下を処理可能な最小モデルサイズの探索:
- 自動化Nmapスキャン
- 量子対応チェック
- Metasploit統合
🟡 TestLLM – 現在の実験モデル(llama.cpp on 6 CPUスレッド):
- ✅ 設定不要
- ⏳ 30秒ロード時間(低速推論だがAPIコスト無料)
- 🔧 協力募集! エッジAIに興味ある方、共同開発を!
その他アシスタント
🟢 TurboLLM – gpt-4-mini使用:
🔵 HugLLM – オープンソースモデル(≈8Bパラメータ):
- TurboLLM比2倍のトークン
- AIログ解析
- 🌐 Hugging Face推論APIで動作
💡 テスト推奨AIコマンド例:
"WebサイトのSSL証明書情報を表示"
"サーバーの量子安全暗号通信使用を確認"
"簡易Nmap脆弱性テストを実行"