ホーム

Olmo 2 0325 32B Instruct GGUF

Mungertによって開発

OLMo-2-0325-32B-DPOをベースにした命令微調整モデルで、IQ-DynamicGate超低ビット量子化技術を採用し、メモリ制約環境向けに最適化されています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #超低ビット量子化 #精度適応 #エッジデバイス推論

ダウンロード数 15.57k

リリース時間 : 4/2/2025

モデル概要

このモデルは32Bパラメータの大規模言語モデルで、命令微調整が施されており、テキスト生成タスクをサポートします。革新的なIQ-DynamicGate量子化技術を採用し、1-2ビットの超低精度でも高い性能を維持できます。

モデル特徴

IQ-DynamicGate超低ビット量子化

革新的な1-2ビット量子化技術で、精度適応戦略を採用し、極限のメモリ効率を維持しながら誤差伝播を低減します。

階層型量子化戦略

モデルの異なる層に対して差異化された量子化スキームを適用し、重要なコンポーネントはより高い精度を保持することで、性能と効率のバランスを実現します。

マルチフォーマット対応

BF16からIQ3_XSまで様々な量子化フォーマットを提供し、異なるハードウェア環境と性能要件に対応します。

モデル能力

テキスト生成

命令追従

低メモリ推論

使用事例

リソース制約環境での展開

エッジデバイス推論

メモリが限られたエッジデバイスで大規模言語モデルを実行

IQ1_M量子化バージョンでパープレキシティ43.9%低減

CPU推論最適化

GPUアクセラレーションのないCPU環境でモデルを効率的に実行

Q4_K量子化バージョンはメモリ制約のあるCPU推論に適しています

研究応用

超低ビット量子化研究

1-2ビット量子化がモデル性能に与える影響を研究

IQ2_S量子化バージョンでパープレキシティ36.9%低減

license: apache-2.0 language:

en datasets:
allenai/RLVR-GSM-MATH-IF-Mixed-Constraints base_model:
allenai/OLMo-2-0325-32B-DPO pipeline_tag: text-generation library_name: transformers

OLMo-2-0325-32B-Instruct GGUFモデル

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

最新の量子化手法では、精度適応型量子化を導入し、Llama-3-8Bでベンチマーク実証済みの改善を達成しました。このアプローチでは、レイヤーごとの戦略を使用して精度を維持しながら、極めて効率的なメモリ使用を実現しています。

ベンチマーク概要

すべてのテストはLlama-3-8B-Instructで実施：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同一のプロンプトセットを使用

手法

動的精度割り当て：
- 最初/最後の25%レイヤー → IQ4_XS（選択レイヤー）
- 中間50% → IQ2_XXS/IQ3_S（効率向上）
重要コンポーネント保護：
- 埋め込み/出力レイヤーはQ5_Kを使用
- 標準1-2ビット比で誤差伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

凡例：

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2, 2048トークンコンテキスト）
サイズ差は混合量子化のオーバーヘッドを反映

主な改善点：

🔥 IQ1_M は43.9%のパープレキシティ改善（27.46 → 15.41）
🚀 IQ2_S は36.9%のパープレキシティ削減（追加メモリ僅か0.2GB）
⚡ IQ1_S は1ビット量子化でも39.7%の精度向上を維持

トレードオフ：

全バリアントで小幅なサイズ増加（0.1-0.3GB）
推論速度は同等（<5%差）

推奨使用場面

📌 GPU VRAMにモデルを収容

✔ メモリ制約のある環境

✔ 1-2ビット誤差が許容されるCPU/エッジデバイス

✔ 超低ビット量子化の研究

適切なモデル形式の選択

最適なモデル形式はハードウェア能力とメモリ制約に依存します。

BF16（Brain Float 16）– BF16加速対応環境向け

高速演算と良好な精度を両立する16ビット浮動小数点形式
FP32と同様のダイナミックレンジでメモリ使用量削減
BF16加速対応ハードウェア推奨（デバイス仕様要確認）
FP32比でメモリフットプリント削減した高性能推論向け

📌 BF16推奨条件：
✔ ハードウェアがBF16ネイティブ対応（新型GPU/TPU等）
✔ メモリ節約しつつ高精度が必要
✔ 他形式への再量子化を計画

📌 BF16非推奨条件：
❌ BF16非対応ハードウェア（FP32フォールバックで低速化）
❌ BF16最適化未対応の旧デバイス互換性が必要

F16（Float 16）– BF16より広範な対応

16ビット浮動小数点で高精度だがBF16より値範囲が狭い
FP16加速対応多数デバイス（多くのGPU/一部CPU）で動作
BF16より数値精度は劣るが推論には概ね十分

📌 F16推奨条件：
✔ FP16対応だがBF16非対応なハードウェア
✔ 速度・メモリ・精度のバランスが必要
✔ GPU等FP16演算最適化デバイスで実行

📌 F16非推奨条件：
❌ FP16ネイティブ非対応デバイス（予想外の低速化）
❌ メモリ制約が厳しい環境

量子化モデル（Q4_K, Q6_K, Q8等）– CPU/低VRAM環境向け

量子化はモデルサイズ・メモリ使用量を削減しつつ精度を可能な限り維持

低ビット（Q4_K） → 最小メモリ使用、精度低下あり
高ビット（Q6_K, Q8_0） → 高精度、メモリ要求増

📌 量子化モデル推奨条件：
✔ CPU上で最適化モデルが必要
✔ デバイスが低VRAMで完全精度モデルをロード不可
✔ メモリフットプリント削減しつつ適度な精度維持が必要

📌 量子化モデル非推奨条件：
❌ 最高精度が必要（完全精度モデルが優位）
❌ ハードウェアが高精度形式（BF16/F16）に十分なVRAMを保有

超低ビット量子化（IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0）

極限のメモリ効率を追求したモデルで、低電力デバイスや大規模展開に最適

IQ3_XS：3ビット量子化で極限のメモリ効率
- 用途：Q4_Kでも大きすぎる超低メモリデバイス向け
- トレードオフ：高ビット量子化比で精度低下
IQ3_S：最小ブロックサイズで最大メモリ効率
- 用途：IQ3_XSが過剰な低メモリデバイス向け
IQ3_M：中ブロックサイズでIQ3_Sより高精度
- 用途：IQ3_Sが制限となる低メモリデバイス向け
Q4_K：4ビット量子化でブロック最適化による高精度
- 用途：Q6_Kが大きすぎる低メモリデバイス向け
Q4_0：純粋4ビット量子化、ARMデバイス向け最適化
- 用途：ARMベースデバイスや低メモリ環境向け

モデル形式選択早見表

モデル形式	精度	メモリ使用量	デバイス要件	最適用途
BF16	最高	高	BF16対応GPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応デバイス	BF16非対応GPU推論
Q4_K	中～低	低	CPU/低VRAMデバイス	メモリ制約環境向け
Q6_K	中	中	メモリ豊富なCPU	量子化モデル内で高精度
Q8_0	高	中	VRAM十分なCPU/GPU	量子化モデル中最も高精度
IQ3_XS	極低	極低	超低メモリデバイス	極限のメモリ効率
Q4_0	低	低	ARM/低メモリデバイス	llama.cppのARM最適化向け