ホーム

Olympiccoder 7B GGUF

Mungertによって開発

OlympicCoder-7BはQwen2.5-Coder-7B-Instructを最適化したコード生成モデルで、IQ-DynamicGate超低ビット量子化技術を採用し、メモリ制約環境向けに設計されています。

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #超低ビット量子化 #コード生成最適化 #エッジデバイス適応

ダウンロード数 849

リリース時間 : 4/25/2025

モデル概要

このモデルはコード生成タスクに特化しており、革新的な1-2ビット量子化技術を採用することで、効率的な推論を維持しながらメモリ使用量を大幅に削減し、エッジデバイスやCPU展開に適しています。

モデル特徴

IQ-DynamicGate量子化技術

階層的な動的精度割り当て戦略を採用し、キーコンポーネント保護技術により38%の誤差伝播を低減、1-2ビット量子化下で顕著な精度向上を実現

極致メモリ効率

IQ1_S量子化バージョンはわずか2.1GBのメモリを必要とし、IQ3_XSバージョンは超低メモリデバイス展開に適しています

精度適応

上位25%と下位25%の層にIQ4_XSを、中間50%の層にIQ2_XXS/IQ3_Sを使用し、精度と効率のバランスを実現

モデル能力

コード生成

低メモリ推論

エッジデバイス展開

CPU最適化推論

使用事例

開発ツール

コード補完

メモリ制約のあるIDEプラグインでコード提案を提供

IQ2_S量子化バージョンで36.9%の困惑度低減

エッジコンピューティング

デバイスサイドコード生成

Raspberry Piなどのエッジデバイスでコード生成サービスを実行

IQ3_XSバージョンは極めて低いメモリしか必要としません

license: apache-2.0 datasets:

open-r1/codeforces-cots language:
en base_model:
Qwen/Qwen2.5-Coder-7B-Instruct pipeline_tag: text-generation library_name: transformers

OlympicCoder-7B GGUFモデル

IQ-DynamicGateによる超低ビット量子化（1-2ビット）

最新の量子化手法では、精度適応型量子化を導入し、ベンチマークで証明されたLlama-3-8Bの改善を実現しています。このアプローチでは、レイヤーごとの戦略を使用して、極端なメモリ効率を維持しながら精度を保持します。

ベンチマークコンテキスト

すべてのテストはLlama-3-8B-Instructを使用して実施されました：

標準的なパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化で同じプロンプトセットを使用

手法

動的精度割り当て：
- 最初と最後の25%のレイヤー → IQ4_XS（選択されたレイヤー）
- 中間の50% → IQ2_XXS/IQ3_S（効率向上）
重要なコンポーネントの保護：
- 埋め込み層と出力層はQ5_Kを使用
- 標準の1-2ビットと比べて誤差伝播を38%削減

量子化性能比較（Llama-3-8B）

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キー：

PPL = パープレキシティ（低いほど良い）
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間（CPU avx2、2048トークンコンテキスト）
サイズの違いは混合量子化のオーバーヘッドを反映

主な改善点：

🔥 IQ1_Mは43.9%のパープレキシティ削減（27.46 → 15.41）
🚀 IQ2_Sは36.9%のパープレキシティ削減、0.2GBの追加のみ
⚡ IQ1_Sは1ビット量子化でも39.7%の精度向上を維持

トレードオフ：

すべてのバリアントでサイズが若干増加（0.1-0.3GB）
推論速度は同等（<5%の差）

これらのモデルを使用する場合

📌 GPU VRAMにモデルを収める

✔ メモリ制約のある展開

✔ 1-2ビットの誤差が許容されるCPUおよびエッジデバイス

✔ 超低ビット量子化の研究

適切なモデルフォーマットの選択

適切なモデルフォーマットの選択は、ハードウェアの能力とメモリ制約に依存します。

BF16（Brain Float 16）– BF16アクセラレーションが利用可能な場合に使用

高速な計算を可能にする16ビット浮動小数点フォーマットで、良好な精度を保持。
FP32と同様のダイナミックレンジを提供し、メモリ使用量を削減。
BF16アクセラレーションをサポートするハードウェアに推奨（デバイスの仕様を確認）。
FP32と比べてメモリフットプリントを削減した高性能推論に最適。

📌 BF16を使用する場合：
✔ ハードウェアがBF16サポートをネイティブに持つ（例：新しいGPU、TPU）。
✔ より高い精度を維持しながらメモリを節約したい。
✔ モデルを別のフォーマットに再量子化する予定がある。

📌 BF16を避ける場合：
❌ ハードウェアがBF16をサポートしていない（FP32にフォールバックし、遅くなる可能性がある）。
❌ BF16最適化がない古いデバイスとの互換性が必要。

F16（Float 16）– BF16より広くサポート

16ビット浮動小数点の高精度フォーマットだが、BF16より値の範囲が狭い。
FP16アクセラレーションをサポートするほとんどのデバイス（多くのGPUや一部のCPU）で動作。
BF16より若干精度が低いが、一般的に推論には十分。

📌 F16を使用する場合：
✔ ハードウェアがFP16をサポートしているが、BF16をサポートしていない。
✔ 速度、メモリ使用量、精度のバランスが必要。
✔ GPUやFP16計算に最適化されたデバイスで実行する。

📌 F16を避ける場合：
❌ デバイスがネイティブFP16サポートを持たない（予想より遅くなる可能性がある）。
❌ メモリ制約がある。

量子化モデル（Q4_K、Q6_K、Q8など）– CPUおよび低VRAM推論用

量子化はモデルサイズとメモリ使用量を削減し、可能な限り精度を維持。

低ビットモデル（Q4_K） → 最小メモリ使用量に最適、精度が低い可能性あり。
高ビットモデル（Q6_K、Q8_0） → より良い精度、より多くのメモリが必要。

📌 量子化モデルを使用する場合：
✔ CPUで推論を実行し、最適化されたモデルが必要。
✔ デバイスのVRAMが低く、完全精度モデルをロードできない。
✔ 合理的な精度を維持しながらメモリフットプリントを削減したい。

📌 量子化モデルを避ける場合：
❌ 最大の精度が必要（完全精度モデルが適している）。
❌ ハードウェアがより高精度のフォーマット（BF16/F16）に十分なVRAMを持っている。

超低ビット量子化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

これらのモデルは極端なメモリ効率に最適化されており、低電力デバイスやメモリが重要な制約となる大規模展開に理想的。

IQ3_XS：超低ビット量子化（3ビット）、極端なメモリ効率。
- 使用例：Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ：高ビット量子化と比べて精度が低い。
IQ3_S：最大のメモリ効率のための小さなブロックサイズ。
- 使用例：IQ3_XSが過度に攻撃的である場合の低メモリデバイスに最適。
IQ3_M：IQ3_Sより良い精度の中ブロックサイズ。
- 使用例：IQ3_Sが制限的すぎる低メモリデバイスに適している。
Q4_K：4ビット量子化、ブロックごとの最適化で精度向上。
- 使用例：Q6_Kが大きすぎる低メモリデバイスに最適。
Q4_0：純粋な4ビット量子化、ARMデバイスに最適化。
- 使用例：ARMベースのデバイスや低メモリ環境に最適。

サマリーテーブル：モデルフォーマット選択

モデルフォーマット	精度	メモリ使用量	デバイス要件	最適な使用例
BF16	最高	高	BF16サポートGPU/CPU	メモリ削減した高速推論
F16	高	高	FP16サポートデバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約環境に最適
Q6_K	中	中	より多くのメモリを持つCPU	量子化されながらもより良い精度
Q8_0	高	中	十分なVRAMを持つCPU/GPU	量子化モデル中最も高い精度
IQ3_XS	非常に低い	非常に低い	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイスに最適化