ホーム

Deepcoder 14B Preview GGUF

Mungertによって開発

IQ-DynamicGate技術を採用した超低位量子化(1-2ビット)モデルで、メモリ制約のあるデバイスやエッジコンピューティングシナリオに適しています

大規模言語モデル英語オープンソースライセンス:MIT #超低位量子化 #エッジデバイス推論 #精度適応

ダウンロード数 1,764

リリース時間 : 4/11/2025

モデル概要

DeepSeek-R1蒸留版Qwen-14Bをベースにしたテキスト生成モデルで、革新的なIQ-DynamicGate量子化技術を採用し、極限のメモリ効率を維持しながら精度を最適化しています

モデル特徴

IQ-DynamicGate量子化技術

階層別特定戦略の精度適応量子化を採用し、1-2ビットの超低位量子化下でも高い精度を維持します

キーコンポーネント保護

埋め込み層と出力層にQ5_Kを使用して精度を保持し、38%の誤差伝播を低減します

混合量子化戦略

上位25%と下位25%の層にIQ4_XS、中間50%の層にIQ2_XXS/IQ3_Sを使用し、効率と精度のバランスを実現します

モデル能力

テキスト生成

低メモリ推論

エッジデバイス展開

量子化研究

使用事例

メモリ制約展開

低VRAM GPU推論

VRAMが限られたGPU上で大規模言語モデルを実行

IQ1_M量子化バージョンで43.9%のパープレキシティ低減

エッジデバイスAI

リソース制約のあるエッジデバイスに言語モデルを展開

IQ3_XSバージョンは極めて低いメモリしか必要としません

研究応用

超低位量子化研究

1-2ビット量子化の限界性能を研究

IQ1_Sは1ビットで39.7%優れた精度を維持

license: mit library_name: transformers datasets:

PrimeIntellect/verifiable-coding-problems
likaixin/TACO-verified
livecodebench/code_generation_lite language:
en base_model:
deepseek-ai/DeepSeek-R1-Distill-Qwen-14B pipeline_tag: text-generation

DeepCoder-14B-Preview GGUFモデル

IQ-DynamicGateによる超低ビット量子化(1-2ビット)

最新の量子化手法では、精度適応型量子化を導入した超低ビットモデル(1-2ビット)を実現し、Llama-3-8Bにおいてベンチマークで証明された改善を達成しています。このアプローチでは、層ごとの戦略を使用して精度を維持しながら、極めて高いメモリ効率を実現しています。

ベンチマーク概要

すべてのテストはLlama-3-8B-Instructを使用して実施:

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同一のプロンプトセットを使用

手法

動的精度割り当て:
- 最初/最後の25%の層 → IQ4_XS (選択層)
- 中間50% → IQ2_XXS/IQ3_S (効率向上)
重要コンポーネント保護:
- 埋め込み/出力層はQ5_Kを使用
- 標準1-2ビット比で誤差伝播を38%低減

量子化性能比較(Llama-3-8B)

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

凡例:

PPL = パープレキシティ(低いほど良い)
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間(CPU avx2, 2048トークンコンテキスト)
サイズ差は混合量子化のオーバーヘッドを反映

主な改善点:

🔥 IQ1_Mは43.9%のパープレキシティ低減(27.46 → 15.41)
🚀 IQ2_Sは36.9%のパープレキシティ削減かつ0.2GBのみ追加
⚡ IQ1_Sは1ビット量子化にも関わらず39.7%高い精度を維持

トレードオフ:

すべてのバリアントでわずかなサイズ増加(0.1-0.3GB)
推論速度は同等(<5%差)を維持

これらのモデルの使用場面

📌 GPU VRAMにモデルを収める場合

✔ メモリ制約のあるデプロイメント

✔ 1-2ビット誤差を許容できるCPUおよびエッジデバイス

✔ 超低ビット量子化の研究

適切なモデルフォーマットの選択

適切なモデルフォーマットの選択は、ハードウェア能力とメモリ制約に依存します。

BF16 (Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用

高速計算のために設計された16ビット浮動小数点形式で、良好な精度を保持。
FP32と同様のダイナミックレンジを提供しつつ、メモリ使用量を低減。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨(デバイス仕様を確認)。
FP32と比較してメモリフットプリントを削減した高性能推論に最適。

📌 BF16を使用する場合:
✔ ハードウェアがネイティブでBF16をサポート(例: 新しいGPU、TPU)。
✔ より高い精度が必要でメモリを節約したい場合。
✔ モデルを別のフォーマットに再量子化する計画がある場合。

📌 BF16を避ける場合:
❌ ハードウェアがBF16をサポートしていない(FP32にフォールバックし遅くなる可能性)。
❌ BF16最適化を欠く古いデバイスとの互換性が必要な場合。

F16 (Float 16) – BF16より広くサポート

16ビット浮動小数点の高精度形式だが、BF16より値の範囲が狭い。
FP16アクセラレーションをサポートするほとんどのデバイス(多くのGPUや一部のCPU)で動作。
BF16よりわずかに数値精度が低いが、一般的に推論には十分。

📌 F16を使用する場合:
✔ ハードウェアがFP16をサポートするがBF16をサポートしない場合。
✔ 速度、メモリ使用量、精度のバランスが必要な場合。
✔ GPUやFP16計算に最適化されたデバイスで実行する場合。

📌 F16を避ける場合:
❌ デバイスがネイティブFP16サポートを欠く(予想より遅くなる可能性)。
❌ メモリ制約がある場合。

量子化モデル(Q4_K, Q6_K, Q8など) – CPU & 低VRAM推論用

量子化はモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持。

低ビットモデル(Q4_K) → 最小メモリ使用に最適、精度は低め。
高ビットモデル(Q6_K, Q8_0) → 精度向上、より多くのメモリを必要。

📌 量子化モデルを使用する場合:
✔ CPUで推論を実行し最適化モデルが必要な場合。
✔ デバイスのVRAMが低く、完全精度モデルをロードできない場合。
✔ 合理的な精度を保ちつつメモリフットプリントを削減したい場合。

📌 量子化モデルを避ける場合:
❌ 最大精度が必要な場合(完全精度モデルが適している)。
❌ ハードウェアがより高精度フォーマット(BF16/F16)に十分なVRAMを持つ場合。

超低ビット量子化(IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)

これらのモデルは極端なメモリ効率のために最適化され、低電力デバイスやメモリが重大な制約となる大規模デプロイメントに理想的。

IQ3_XS: 超低ビット量子化(3ビット)で極端なメモリ効率。
- 使用例: Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ: 高ビット量子化と比較して精度低下。
IQ3_S: 最大メモリ効率のための小さなブロックサイズ。
- 使用例: IQ3_XSが過度に攻撃的すぎる低メモリデバイスに最適。
IQ3_M: IQ3_Sより良い精度の中間ブロックサイズ。
- 使用例: IQ3_Sが制限しすぎる低メモリデバイスに適している。
Q4_K: より良い精度のためのブロック単位最適化を伴う4ビット量子化。
- 使用例: Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0: ARMデバイス向けに最適化された純粋な4ビット量子化。
- 使用例: ARMベースデバイスまたは低メモリ環境に最適。

要約表: モデルフォーマット選択

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適使用例
BF16	最高	高	BF16対応GPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応デバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約環境に最適
Q6_K	中	中	より多くのメモリを持つCPU	量子化されつつより良い精度
Q8_0	高	中	十分なVRAMを持つCPUまたはGPU	量子化モデル中最も高精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス向けに最適化