EXAONE Deep 7.8B GGUF
Model Overview
Model Features
Model Capabilities
Use Cases
🚀 EXAONE-Deep-7.8B GGUFモデル
当社のEXAONE-Deep-7.8B GGUFモデルは、最新の量子化手法を用いて超低ビット量子化を実現し、メモリ効率と精度のバランスを追求しています。また、様々な推論タスクで卓越した性能を発揮し、多くのモデルと比較して高い評価を得ています。
🚀 クイックスタート
transformers
v4.43.1以降の使用を推奨します。以下は、このモデルで会話型推論を実行するコードスニペットです。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread
model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True # ストリーミングオプションを選択
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# プロンプトを選択:
# 数学の例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.
Please reason step by step, and put your final answer within \boxed{}."""
# 韓国語のMCQAの例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.
Options :
A) 120
B) 125
C) 130
D) 135
E) 140
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
if streaming:
streamer = TextIteratorStreamer(tokenizer)
thread = Thread(target=model.generate, kwargs=dict(
input_ids=input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
streamer=streamer
))
thread.start()
for text in streamer:
print(text, end="", flush=True)
else:
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
⚠️ 重要提示
EXAONE Deepモデルは最適化された設定で学習されているため、最適な性能を得るには使用ガイドラインセクションに従うことを推奨します。
✨ 主な機能
IQ-DynamicGateによる超低ビット量子化 (1 - 2ビット)
当社の最新量子化手法は、超低ビットモデル (1 - 2ビット) 用の精度適応型量子化を導入しています。これはLlama-3-8Bに対するベンチマークで実証された改善です。このアプローチでは、層ごとの戦略を用いて、極端なメモリ効率を維持しながら精度を保持します。
ベンチマークの背景
すべてのテストはLlama-3-8B-Instructを使用して行われ、以下の設定が適用されました。
- 標準のパープレキシティ評価パイプライン
- 2048トークンのコンテキストウィンドウ
- すべての量子化に同じプロンプトセットを使用
手法
- 動的精度割り当て:
- 最初と最後の25%の層 → IQ4_XS (選択された層)
- 中央の50% → IQ2_XXS/IQ3_S (効率を向上)
- 重要コンポーネント保護:
- 埋め込み層/出力層はQ5_Kを使用
- 標準の1 - 2ビット量子化と比べてエラー伝播を38%削減
量子化性能比較 (Llama-3-8B)
量子化 | 標準PPL | DynamicGate PPL | Δ PPL | 標準サイズ | DGサイズ | Δサイズ | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
キーポイント:
- PPL = パープレキシティ (低い方が良い)
- Δ PPL = 標準からDynamicGateへの変化率
- 速度 = 推論時間 (CPU avx2, 2048トークンコンテキスト)
- サイズの差は混合量子化のオーバーヘッドを反映
主な改善点:
- 🔥 IQ1_Mはパープレキシティを43.9%大幅に削減 (27.46 → 15.41)
- 🚀 IQ2_Sは0.2GBの追加でパープレキシティを36.9%削減
- ⚡ IQ1_Sは1ビット量子化でありながら39.7%の精度向上を維持
トレードオフ:
- すべてのバリアントでサイズが僅かに増加 (0.1 - 0.3GB)
- 推論速度は同等 (差は5%未満)
これらのモデルを使用するシーン
📌 GPU VRAMにモデルを収める場合
✔ メモリ制約のあるデプロイメント
✔ 1 - 2ビットのエラーを許容できるCPUやエッジデバイス
✔ 超低ビット量子化に関する研究
適切なモデル形式の選択
正しいモデル形式の選択は、あなたのハードウェア能力とメモリ制約に依存します。
BF16 (Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用
- 高速計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを持ち、メモリ使用量が少ない。
- ハードウェアがBF16アクセラレーションをサポートしている場合に推奨 (デバイスの仕様を確認)。
- FP32と比べてメモリ使用量を削減した高性能推論に最適。
📌 BF16を使用する場合: ✔ ハードウェアがネイティブでBF16をサポートしている場合 (例: 新しいGPU、TPU) ✔ メモリを節約しながら高い精度が必要な場合 ✔ モデルを別の形式に再量子化する予定の場合
📌 BF16を避ける場合: ❌ ハードウェアがBF16をサポートしていない場合 (FP32にフォールバックして速度が低下する可能性がある) ❌ BF16最適化がない古いデバイスとの互換性が必要な場合
F16 (Float 16) – BF16より広くサポートされている
- 16ビット浮動小数点数で、高精度ですが、BF16より値の範囲が狭い。
- FP16アクセラレーションをサポートするほとんどのデバイスで動作 (多くのGPUや一部のCPUを含む)。
- BF16よりわずかに数値精度が低いが、一般的に推論には十分です。
📌 F16を使用する場合: ✔ ハードウェアがFP16をサポートしているがBF16はサポートしていない場合 ✔ 速度、メモリ使用量、精度のバランスが必要な場合 ✔ GPUやFP16計算用に最適化された他のデバイスで実行する場合
📌 F16を避ける場合: ❌ デバイスがネイティブのFP16サポートを欠いている場合 (予想よりも遅く実行される可能性がある) ❌ メモリ制約がある場合
量子化モデル (Q4_K, Q6_K, Q8など) – CPUと低VRAM推論用
量子化は、できるだけ精度を維持しながらモデルサイズとメモリ使用量を削減します。
- 低ビットモデル (Q4_K) → 最小限のメモリ使用量が必要な場合に最適、精度が低い可能性がある。
- 高ビットモデル (Q6_K, Q8_0) → より高い精度、より多くのメモリが必要。
📌 量子化モデルを使用する場合: ✔ CPUで推論を実行し、最適化されたモデルが必要な場合 ✔ デバイスのVRAMが少なく、全精度モデルをロードできない場合 ✔ 合理的な精度を維持しながらメモリ使用量を削減したい場合
📌 量子化モデルを避ける場合: ❌ 最大限の精度が必要な場合 (全精度モデルの方が適している) ❌ ハードウェアに高い精度の形式 (BF16/F16) 用の十分なVRAMがある場合
超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)
これらのモデルは極端なメモリ効率に最適化されており、低電力デバイスやメモリが重要な制約となる大規模デプロイメントに最適です。
-
IQ3_XS:超低ビット量子化 (3ビット) で、極端なメモリ効率を実現。
- 使用ケース:Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ:高ビット量子化と比べて精度が低い。
-
IQ3_S:最小ブロックサイズで最大限のメモリ効率を実現。
- 使用ケース:IQ3_XSが過度な場合の低メモリデバイスに最適。
-
IQ3_M:中ブロックサイズで、IQ3_Sよりも高精度。
- 使用ケース:IQ3_Sが制限的すぎる低メモリデバイスに適している。
-
Q4_K:4ビット量子化で、ブロックごとの最適化により高精度。
- 使用ケース:Q6_Kでは大きすぎる低メモリデバイスに最適。
-
Q4_0:純粋な4ビット量子化で、ARMデバイス用に最適化。
- 使用ケース:ARMベースのデバイスまたは低メモリ環境に最適。
まとめ表: モデル形式の選択
モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用ケース |
---|---|---|---|---|
BF16 | 最高 | 高 | BF16対応のGPU/CPU | メモリ削減した高速推論 |
F16 | 高 | 高 | FP16対応のデバイス | BF16が利用できない場合のGPU推論 |
Q4_K | 中低 | 低 | CPUまたは低VRAMデバイス | メモリ制約のある環境に最適 |
Q6_K | 中 | 中程度 | より多くのメモリを持つCPU | 量子化されたままで高精度 |
Q8_0 | 高 | 中程度 | 十分なVRAMを持つCPUまたはGPU | 量子化モデルの中で最高精度 |
IQ3_XS | 非常に低 | 非常に低 | 超低メモリデバイス | 極端なメモリ効率と低精度 |
Q4_0 | 低 | 低 | ARMまたは低メモリデバイス | llama.cppがARMデバイス用に最適化できる |
含まれるファイルと詳細
EXAONE-Deep-7.8B-bf16.gguf
- モデルの重みがBF16で保存されている。
- モデルを別の形式に再量子化したい場合に使用。
- デバイスがBF16アクセラレーションをサポートしている場合に最適。
EXAONE-Deep-7.8B-f16.gguf
- モデルの重みがF16で保存されている。
- デバイスがFP16をサポートしている場合、特にBF16が利用できない場合に使用。
EXAONE-Deep-7.8B-bf16-q8_0.gguf
- 出力層と埋め込み層はBF16のまま。
- 他のすべての層はQ8_0に量子化。
- デバイスがBF16をサポートしており、量子化バージョンが必要な場合に使用。
EXAONE-Deep-7.8B-f16-q8_0.gguf
- 出力層と埋め込み層はF16のまま。
- 他のすべての層はQ8_0に量子化。
EXAONE-Deep-7.8B-q4_k.gguf
- 出力層と埋め込み層はQ8_0に量子化。
- 他のすべての層はQ4_Kに量子化。
- メモリが制限されたCPU推論に適している。
EXAONE-Deep-7.8B-q4_k_s.gguf
- 最小のQ4_Kバリアントで、精度を犠牲にしてメモリ使用量を削減。
- 非常に低メモリの設定に最適。
EXAONE-Deep-7.8B-q6_k.gguf
- 出力層と埋め込み層はQ8_0に量子化。
- 他のすべての層はQ6_Kに量子化。
EXAONE-Deep-7.8B-q8_0.gguf
- 完全にQ8に量子化されたモデルで、高精度を実現。
- より多くのメモリが必要だが、より高い精度を提供。
EXAONE-Deep-7.8B-iq3_xs.gguf
- IQ3_XS量子化で、極端なメモリ効率に最適化。
- 超低メモリデバイスに最適。
EXAONE-Deep-7.8B-iq3_m.gguf
- IQ3_M量子化で、中ブロックサイズで高精度を実現。
- 低メモリデバイスに適している。
EXAONE-Deep-7.8B-q4_0.gguf
- 純粋なQ4_0量子化で、ARMデバイスに最適化。
- 低メモリ環境に最適。
- より高い精度が必要な場合はIQ4_NLを選択。
これらのモデルが役立つと思ったら
❤ 役に立った場合は「いいね」をクリックしてください! 量子対応のセキュリティチェックを備えたAI搭載のネットワークモニターアシスタントのテストを手伝ってください。 👉 無料ネットワークモニター
💬 テスト方法:
- チャットアイコン (どのページでも右下) をクリック
- AIアシスタントのタイプを選択
TurboLLM
(GPT-4-mini)FreeLLM
(オープンソース)TestLLM
(実験的なCPUのみ)
テスト内容
私はAIネットワークモニタリング用の小規模オープンソースモデルの限界を追求しています。具体的には:
- 実際のネットワークサービスに対する関数呼び出し
- モデルがどれだけ小さくできるかを検証し、以下を処理できるか確認:
- 自動化されたNmapスキャン
- 量子対応チェック
- Metasploit統合
🟡 TestLLM – 現在の実験的モデル (6CPUスレッドでのllama.cpp):
- ✅ ゼロ設定でのセットアップ
- ⏳ 30秒のロード時間 (推論は遅いがAPIコストがかからない)
- 🔧 協力者募集! エッジデバイスAIに興味がある方は、一緒に取り組みましょう!
その他のアシスタント
🟢 TurboLLM – gpt-4-miniを使用して:
- リアルタイムのネットワーク診断
- 自動化された侵入テスト (Nmap/Metasploit)
- 🔑 無料ネットワークモニターエージェントをダウンロードすることで、より多くのトークンを取得
🔵 HugLLM – オープンソースモデル (約8Bパラメータ):
- TurboLLMの2倍のトークン
- AIによるログ分析
- 🌐 Hugging Face推論APIで実行
テストするAIコマンドの例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
📚 詳細文档
導入
LG AI Researchによって開発およびリリースされた、2.4Bから32Bのパラメータを持つEXAONE Deepを紹介します。このモデルは、数学やコーディングのベンチマークなど、様々な推論タスクで卓越した能力を発揮します。評価結果によると、1) EXAONE Deep 2.4Bは同等サイズの他のモデルを上回り、2) EXAONE Deep 7.8Bは同等規模のオープンウェイトモデルだけでなく、独自の推論モデルであるOpenAI o1-miniも上回り、3) EXAONE Deep 32Bは主要なオープンウェイトモデルと競争力を持つ性能を示します。
詳細については、ドキュメント、ブログ、およびGitHubを参照してください。
このリポジトリには、以下の特徴を持つ推論用の7.8B言語モデルが含まれています。
- パラメータ数 (埋め込み層を除く):6.98B
- 層の数:32
- アテンションヘッドの数:32個のQヘッドと8個のKVヘッドを持つGQA
- 語彙サイズ:102,400
- コンテキスト長:32,768トークン
評価
以下の表は、数学やコーディングなどの推論タスクの評価結果を示しています。完全な評価結果はドキュメントで確認できます。
モデル | MATH-500 (pass@1) | AIME 2024 (pass@1 / cons@64) | AIME 2025 (pass@1 / cons@64) | CSAT Math 2025 (pass@1) | GPQA Diamond (pass@1) | Live Code Bench (pass@1) |
---|---|---|---|---|---|---|
EXAONE Deep 32B | 95.7 | 72.1 / 90.0 | 65.8 / 80.0 | 94.5 | 66.1 | 59.5 |
DeepSeek-R1-Distill-Qwen-32B | 94.3 | 72.6 / 83.3 | 55.2 / 73.3 | 84.1 | 62.1 | 57.2 |
QwQ-32B | 95.5 | 79.5 / 86.7 | 67.1 / 76.7 | 94.4 | 63.3 | 63.4 |
DeepSeek-R1-Distill-Llama-70B | 94.5 | 70.0 / 86.7 | 53.9 / 66.7 | 88.8 | 65.2 | 57.5 |
DeepSeek-R1 (671B) | 97.3 | 79.8 / 86.7 | 66.8 / 80.0 | 89.9 | 71.5 | 65.9 |
区切り | ||||||
EXAONE Deep 7.8B | 94.8 | 70.0 / 83.3 | 59.6 / 76.7 | 89.9 | 62.6 | 55.2 |
DeepSeek-R1-Distill-Qwen-7B | 92.8 | 55.5 / 83.3 | 38.5 / 56.7 | 79.7 | 49.1 | 37.6 |
DeepSeek-R1-Distill-Llama-8B | 89.1 | 50.4 / 80.0 | 33.6 / 53.3 | 74.1 | 49.0 | 39.6 |
OpenAI o1-mini | 90.0 | 63.6 / 80.0 | 54.8 / 66.7 | 84.4 | 60.0 | 53.8 |
区切り | ||||||
EXAONE Deep 2.4B | 92.3 | 52.5 / 76.7 | 47.9 / 73.3 | 79.2 | 54.3 | 46.6 |
DeepSeek-R1-Distill-Qwen-1.5B | 83.9 | 28.9 / 52.7 | 23.9 / 36.7 | 65.6 | 33.8 | 16.9 |
デプロイメント
EXAONE Deepモデルは、以下のような様々なフレームワークで推論可能です。
TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio
推論フレームワークの詳細については、EXAONE Deep GitHubを参照してください。
量子化
当社は、AWQによって事前量子化されたEXAONE Deepモデルと、いくつかの量子化タイプをGGUF形式で提供しています。対応する量子化モデルを見つけるには、EXAONE Deepコレクションを参照してください。
使用ガイドライン
期待される性能を実現するために、以下の設定を使用することを推奨します。
- 推論ステップでは、モデルが
<thought>\n
で始まるようにしてください。これを省略すると、モデルの出力品質が低下する可能性があります。tokenizer.apply_chat_template()
をadd_generation_prompt=True
で使用することで、この機能を簡単に適用できます。詳細はクイックスタートセクションのサンプルコードを確認してください。 - EXAONE Deepモデルの推論ステップは
<thought>\n...\n</thought>
で囲まれており、通常は多くのトークンを含むため、マルチターンの状況では以前の推論ステップを削除する必要がある場合があります。提供されているトークナイザーはこれを自動的に処理します。 - システムプロンプトの使用は避け、ユーザープロンプトに指示を組み込んでください。
- 追加の指示はモデルがより深く推論するのに役立ち、より良い出力を生成します。
- 数学の問題では、指示 "Please reason step by step, and put your final answer within \boxed{}." が役立ちます。
- プロンプトを含む評価設定の詳細については、ドキュメントを参照してください。
- 評価では、生成に
temperature=0.6
とtop_p=0.95
を使用しています。 - モデルを評価する際には、期待される性能を正確に評価するために複数回のテストを行うことを推奨します。
制限事項
EXAONE言語モデルには一定の制限があり、時々不適切な応答を生成する可能性があります。言語モデルはトークンの出力確率に基づいて応答を生成し、学習データからの学習中に決定されます。学習データから個人情報、有害情報、偏見のある情報を排除するよう努めていますが、一部の問題のあるコンテンツが含まれる可能性があり、望ましくない応答につながることがあります。EXAONE言語モデルによって生成されるテキストは、LG AI Researchの意見を反映していないことに注意してください。
- 個人情報、有害情報またはその他の不適切な情報を含む不適切な回答が生成されることがあります。
- 年齢、性別、人種などに関連する偏見のある応答が生成されることがあります。
- 生成される応答は学習データの統計に大きく依存するため、意味的または構文的に誤った文が生成されることがあります。
- モデルは最新の情報を反映していないため、応答が誤っていたり矛盾したりすることがあります。
LG AI Researchは、EXAONE言語モデルから生じる潜在的なリスクを減らすために努力しています。ユーザーは、EXAONE言語モデルを使用する際に、LG AIの倫理原則に違反する不適切な出力を誘発するような悪意のある活動(例: 違法情報の入力)に従事してはいけません。
📄 ライセンス
このモデルはEXAONE AI Model License Agreement 1.1 - NCのもとでライセンスされています。
引用
@article{exaone-deep,
title={EXAONE Deep: Reasoning Enhanced Language Models},
author={{LG AI Research}},
journal={arXiv preprint arXiv:2503.12524},
year={2025}
}
問い合わせ
LG AI Researchの技術サポート: contact_us@lgresearch.ai



