O

Orpheus 3b 0.1 Ft GGUF

Mungertによって開発
Llama-3-8Bアーキテクチャを基に最適化された超低ビット量子化モデル。IQ-DynamicGate技術により1-2ビット精度の適応的量子化を実現し、メモリ制約環境に適しています。
ダウンロード数 1,427
リリース時間 : 4/3/2025

モデル概要

このモデルは動的精度割り当てと主要コンポーネント保護技術により、極めて高いメモリ効率を維持しながら低ビット量子化の精度を大幅に向上させ、特にエッジデバイスやCPU推論に最適です。

モデル特徴

IQ-DynamicGate超低ビット量子化
階層化戦略により1-2ビット精度の適応的量子化を実現。上位25%層と下位25%層にIQ4_XS、中間50%層にIQ2_XXS/IQ3_Sを使用し、誤差伝播を大幅に低減。
主要コンポーネント保護
埋め込み層と出力層にQ5_K量子化を適用して保護し、標準量子化比38%の誤差伝播削減。
メモリ効率最適化
Llama-3-8Bで検証済み。IQ1_Mモデルは困惑度43.9%低減、メモリ増加は僅か0.3GB。

モデル能力

テキスト生成
低メモリ推論
エッジデバイス展開

使用事例

リソース制約環境展開
エッジデバイスAIアシスタント
メモリ制限のあるIoTデバイスにチャットボットを展開
IQ2_S量子化版は僅か2.9GBメモリ使用、困惑度9.02
CPUリアルタイム推論
GPUなしサーバーでバッチテキスト生成を実行
IQ4_KバージョンはCPU上で246トークン/秒の推論速度
量子化技術研究
超低ビットアルゴリズム検証
1-3ビット量子化新アルゴリズムのテストベンチとして
IQ1_SからIQ4_Kまでの全シリーズ量子化比較データを提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase