EXAONE-Deep-7.8B-GGUFオープンソースモデル - 英語と韓国語をサポートし、テキスト生成を簡単に完了

EXAONE Deep 7.8B GGUF

Developed by Mungert

IQ-DynamicGate技術を採用した超低ビット量子化（1-2ビット）の7.8Bパラメータモデルで、英語と韓語のテキスト生成タスクをサポートします。

大規模言語モデル Supports Multiple LanguagesOpen Source License:Other #超低ビット量子化 #動的精度割り当て #エッジデバイス最適化

Downloads 1,791

Release Time : 3/19/2025

Model Overview

EXAONE-Deep-7.8BはLGAI-EXAONE/EXAONE-3.5-7.8B-Instructをファインチューニングしたモデルで、革新的なIQ-DynamicGate技術による超低ビット量子化を採用し、メモリ制約のある展開環境やエッジデバイスに適しています。

Model Features

IQ-DynamicGate技術

精度適応型量子化技術を採用し、超低ビットモデル（1-2ビット）で性能を大幅に向上させます。

動的精度割り当て

上位25%と下位25%の層にIQ4_XS、中間50%の層にIQ2_XXS/IQ3_Sを使用し、効率と精度を最適化します。

重要コンポーネント保護

埋め込み層と出力層にQ5_Kを使用し、誤差伝播を38%削減します。

極限のメモリ効率

メモリ制約のある展開環境に適し、CPUやエッジデバイスをサポートします。

Model Capabilities

テキスト生成

多言語サポート（英語、韓語）

超低ビット量子化推論

Use Cases

メモリ制約のある展開環境

エッジデバイス推論

メモリが限られたエッジデバイスでテキスト生成タスクを実行します。

メモリ使用量を大幅に削減し、合理的な精度を維持します。

研究と応用

超低ビット量子化研究

大規模言語モデルにおける1-2ビット量子化技術の応用を探求します。

量子化性能比較データを提供し、研究ニーズをサポートします。

🚀 EXAONE-Deep-7.8B GGUFモデル

当社のEXAONE-Deep-7.8B GGUFモデルは、最新の量子化手法を用いて超低ビット量子化を実現し、メモリ効率と精度のバランスを追求しています。また、様々な推論タスクで卓越した性能を発揮し、多くのモデルと比較して高い評価を得ています。

🚀 クイックスタート

transformers v4.43.1以降の使用を推奨します。以下は、このモデルで会話型推論を実行するコードスニペットです。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True    # ストリーミングオプションを選択

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# プロンプトを選択：
#   数学の例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韓国語のMCQAの例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

⚠️ 重要提示

EXAONE Deepモデルは最適化された設定で学習されているため、最適な性能を得るには使用ガイドラインセクションに従うことを推奨します。

✨ 主な機能

IQ-DynamicGateによる超低ビット量子化 (1 - 2ビット)

当社の最新量子化手法は、超低ビットモデル (1 - 2ビット) 用の精度適応型量子化を導入しています。これはLlama-3-8Bに対するベンチマークで実証された改善です。このアプローチでは、層ごとの戦略を用いて、極端なメモリ効率を維持しながら精度を保持します。

ベンチマークの背景

すべてのテストはLlama-3-8B-Instructを使用して行われ、以下の設定が適用されました。

標準のパープレキシティ評価パイプライン
2048トークンのコンテキストウィンドウ
すべての量子化に同じプロンプトセットを使用

手法

動的精度割り当て：
- 最初と最後の25%の層 → IQ4_XS (選択された層)
- 中央の50% → IQ2_XXS/IQ3_S (効率を向上)
重要コンポーネント保護：
- 埋め込み層/出力層はQ5_Kを使用
- 標準の1 - 2ビット量子化と比べてエラー伝播を38%削減

量子化性能比較 (Llama-3-8B)

量子化	標準PPL	DynamicGate PPL	Δ PPL	標準サイズ	DGサイズ	Δサイズ	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

キーポイント：

PPL = パープレキシティ (低い方が良い)
Δ PPL = 標準からDynamicGateへの変化率
速度 = 推論時間 (CPU avx2, 2048トークンコンテキスト)
サイズの差は混合量子化のオーバーヘッドを反映

主な改善点：

🔥 IQ1_Mはパープレキシティを43.9%大幅に削減 (27.46 → 15.41)
🚀 IQ2_Sは0.2GBの追加でパープレキシティを36.9%削減
⚡ IQ1_Sは1ビット量子化でありながら39.7%の精度向上を維持

トレードオフ：

すべてのバリアントでサイズが僅かに増加 (0.1 - 0.3GB)
推論速度は同等 (差は5%未満)

これらのモデルを使用するシーン

📌 GPU VRAMにモデルを収める場合

✔ メモリ制約のあるデプロイメント

✔ 1 - 2ビットのエラーを許容できるCPUやエッジデバイス

✔ 超低ビット量子化に関する研究

適切なモデル形式の選択

正しいモデル形式の選択は、あなたのハードウェア能力とメモリ制約に依存します。

BF16 (Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用

高速計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
FP32と同様のダイナミックレンジを持ち、メモリ使用量が少ない。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨 (デバイスの仕様を確認)。
FP32と比べてメモリ使用量を削減した高性能推論に最適。

📌 BF16を使用する場合： ✔ ハードウェアがネイティブでBF16をサポートしている場合 (例: 新しいGPU、TPU) ✔ メモリを節約しながら高い精度が必要な場合 ✔ モデルを別の形式に再量子化する予定の場合

📌 BF16を避ける場合： ❌ ハードウェアがBF16をサポートしていない場合 (FP32にフォールバックして速度が低下する可能性がある) ❌ BF16最適化がない古いデバイスとの互換性が必要な場合

F16 (Float 16) – BF16より広くサポートされている

16ビット浮動小数点数で、高精度ですが、BF16より値の範囲が狭い。
FP16アクセラレーションをサポートするほとんどのデバイスで動作 (多くのGPUや一部のCPUを含む)。
BF16よりわずかに数値精度が低いが、一般的に推論には十分です。

📌 F16を使用する場合： ✔ ハードウェアがFP16をサポートしているがBF16はサポートしていない場合 ✔ 速度、メモリ使用量、精度のバランスが必要な場合 ✔ GPUやFP16計算用に最適化された他のデバイスで実行する場合

📌 F16を避ける場合： ❌ デバイスがネイティブのFP16サポートを欠いている場合 (予想よりも遅く実行される可能性がある) ❌ メモリ制約がある場合

量子化モデル (Q4_K, Q6_K, Q8など) – CPUと低VRAM推論用

量子化は、できるだけ精度を維持しながらモデルサイズとメモリ使用量を削減します。

低ビットモデル (Q4_K) → 最小限のメモリ使用量が必要な場合に最適、精度が低い可能性がある。
高ビットモデル (Q6_K, Q8_0) → より高い精度、より多くのメモリが必要。

📌 量子化モデルを使用する場合： ✔ CPUで推論を実行し、最適化されたモデルが必要な場合 ✔ デバイスのVRAMが少なく、全精度モデルをロードできない場合 ✔ 合理的な精度を維持しながらメモリ使用量を削減したい場合

📌 量子化モデルを避ける場合： ❌ 最大限の精度が必要な場合 (全精度モデルの方が適している) ❌ ハードウェアに高い精度の形式 (BF16/F16) 用の十分なVRAMがある場合

超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)

これらのモデルは極端なメモリ効率に最適化されており、低電力デバイスやメモリが重要な制約となる大規模デプロイメントに最適です。

IQ3_XS：超低ビット量子化 (3ビット) で、極端なメモリ効率を実現。
- 使用ケース：Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ：高ビット量子化と比べて精度が低い。
IQ3_S：最小ブロックサイズで最大限のメモリ効率を実現。
- 使用ケース：IQ3_XSが過度な場合の低メモリデバイスに最適。
IQ3_M：中ブロックサイズで、IQ3_Sよりも高精度。
- 使用ケース：IQ3_Sが制限的すぎる低メモリデバイスに適している。
Q4_K：4ビット量子化で、ブロックごとの最適化により高精度。
- 使用ケース：Q6_Kでは大きすぎる低メモリデバイスに最適。
Q4_0：純粋な4ビット量子化で、ARMデバイス用に最適化。
- 使用ケース：ARMベースのデバイスまたは低メモリ環境に最適。

まとめ表: モデル形式の選択

モデル形式	精度	メモリ使用量	デバイス要件	最適な使用ケース
BF16	最高	高	BF16対応のGPU/CPU	メモリ削減した高速推論
F16	高	高	FP16対応のデバイス	BF16が利用できない場合のGPU推論
Q4_K	中低	低	CPUまたは低VRAMデバイス	メモリ制約のある環境に最適
Q6_K	中	中程度	より多くのメモリを持つCPU	量子化されたままで高精度
Q8_0	高	中程度	十分なVRAMを持つCPUまたはGPU	量子化モデルの中で最高精度
IQ3_XS	非常に低	非常に低	超低メモリデバイス	極端なメモリ効率と低精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス用に最適化できる

含まれるファイルと詳細

`EXAONE-Deep-7.8B-bf16.gguf`

モデルの重みがBF16で保存されている。
モデルを別の形式に再量子化したい場合に使用。
デバイスがBF16アクセラレーションをサポートしている場合に最適。

`EXAONE-Deep-7.8B-f16.gguf`

モデルの重みがF16で保存されている。
デバイスがFP16をサポートしている場合、特にBF16が利用できない場合に使用。

`EXAONE-Deep-7.8B-bf16-q8_0.gguf`

出力層と埋め込み層はBF16のまま。
他のすべての層はQ8_0に量子化。
デバイスがBF16をサポートしており、量子化バージョンが必要な場合に使用。

`EXAONE-Deep-7.8B-f16-q8_0.gguf`

出力層と埋め込み層はF16のまま。
他のすべての層はQ8_0に量子化。

`EXAONE-Deep-7.8B-q4_k.gguf`

出力層と埋め込み層はQ8_0に量子化。
他のすべての層はQ4_Kに量子化。
メモリが制限されたCPU推論に適している。

`EXAONE-Deep-7.8B-q4_k_s.gguf`

最小のQ4_Kバリアントで、精度を犠牲にしてメモリ使用量を削減。
非常に低メモリの設定に最適。

`EXAONE-Deep-7.8B-q6_k.gguf`

出力層と埋め込み層はQ8_0に量子化。
他のすべての層はQ6_Kに量子化。

`EXAONE-Deep-7.8B-q8_0.gguf`

完全にQ8に量子化されたモデルで、高精度を実現。
より多くのメモリが必要だが、より高い精度を提供。

`EXAONE-Deep-7.8B-iq3_xs.gguf`

IQ3_XS量子化で、極端なメモリ効率に最適化。
超低メモリデバイスに最適。

`EXAONE-Deep-7.8B-iq3_m.gguf`

IQ3_M量子化で、中ブロックサイズで高精度を実現。
低メモリデバイスに適している。

`EXAONE-Deep-7.8B-q4_0.gguf`

純粋なQ4_0量子化で、ARMデバイスに最適化。
低メモリ環境に最適。
より高い精度が必要な場合はIQ4_NLを選択。

これらのモデルが役立つと思ったら

❤ 役に立った場合は「いいね」をクリックしてください！ 量子対応のセキュリティチェックを備えたAI搭載のネットワークモニターアシスタントのテストを手伝ってください。 👉 無料ネットワークモニター

💬 テスト方法：

チャットアイコン (どのページでも右下) をクリック
AIアシスタントのタイプを選択
- TurboLLM (GPT-4-mini)
- FreeLLM (オープンソース)
- TestLLM (実験的なCPUのみ)

テスト内容

私はAIネットワークモニタリング用の小規模オープンソースモデルの限界を追求しています。具体的には：

実際のネットワークサービスに対する関数呼び出し
モデルがどれだけ小さくできるかを検証し、以下を処理できるか確認：
- 自動化されたNmapスキャン
- 量子対応チェック
- Metasploit統合

🟡 TestLLM – 現在の実験的モデル (6CPUスレッドでのllama.cpp)：

✅ ゼロ設定でのセットアップ
⏳ 30秒のロード時間 (推論は遅いがAPIコストがかからない)
🔧 協力者募集！ エッジデバイスAIに興味がある方は、一緒に取り組みましょう！

その他のアシスタント

🟢 TurboLLM – gpt-4-miniを使用して：

リアルタイムのネットワーク診断
自動化された侵入テスト (Nmap/Metasploit)
🔑 無料ネットワークモニターエージェントをダウンロードすることで、より多くのトークンを取得

🔵 HugLLM – オープンソースモデル (約8Bパラメータ)：

TurboLLMの2倍のトークン
AIによるログ分析
🌐 Hugging Face推論APIで実行

テストするAIコマンドの例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"

📚 詳細文档

導入

LG AI Researchによって開発およびリリースされた、2.4Bから32Bのパラメータを持つEXAONE Deepを紹介します。このモデルは、数学やコーディングのベンチマークなど、様々な推論タスクで卓越した能力を発揮します。評価結果によると、1) EXAONE Deep 2.4Bは同等サイズの他のモデルを上回り、2) EXAONE Deep 7.8Bは同等規模のオープンウェイトモデルだけでなく、独自の推論モデルであるOpenAI o1-miniも上回り、3) EXAONE Deep 32Bは主要なオープンウェイトモデルと競争力を持つ性能を示します。

詳細については、ドキュメント、ブログ、およびGitHubを参照してください。

このリポジトリには、以下の特徴を持つ推論用の7.8B言語モデルが含まれています。

パラメータ数 (埋め込み層を除く)：6.98B
層の数：32
アテンションヘッドの数：32個のQヘッドと8個のKVヘッドを持つGQA
語彙サイズ：102,400
コンテキスト長：32,768トークン

評価

以下の表は、数学やコーディングなどの推論タスクの評価結果を示しています。完全な評価結果はドキュメントで確認できます。

モデル	MATH-500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek-R1-Distill-Qwen-32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ-32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek-R1-Distill-Llama-70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek-R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
区切り
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek-R1-Distill-Qwen-7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek-R1-Distill-Llama-8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1-mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
区切り
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek-R1-Distill-Qwen-1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

デプロイメント

EXAONE Deepモデルは、以下のような様々なフレームワークで推論可能です。

TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio

推論フレームワークの詳細については、EXAONE Deep GitHubを参照してください。

量子化

当社は、AWQによって事前量子化されたEXAONE Deepモデルと、いくつかの量子化タイプをGGUF形式で提供しています。対応する量子化モデルを見つけるには、EXAONE Deepコレクションを参照してください。

使用ガイドライン

期待される性能を実現するために、以下の設定を使用することを推奨します。

推論ステップでは、モデルが <thought>\n で始まるようにしてください。これを省略すると、モデルの出力品質が低下する可能性があります。tokenizer.apply_chat_template() を add_generation_prompt=True で使用することで、この機能を簡単に適用できます。詳細はクイックスタートセクションのサンプルコードを確認してください。
EXAONE Deepモデルの推論ステップは <thought>\n...\n</thought> で囲まれており、通常は多くのトークンを含むため、マルチターンの状況では以前の推論ステップを削除する必要がある場合があります。提供されているトークナイザーはこれを自動的に処理します。
システムプロンプトの使用は避け、ユーザープロンプトに指示を組み込んでください。
追加の指示はモデルがより深く推論するのに役立ち、より良い出力を生成します。
- 数学の問題では、指示 "Please reason step by step, and put your final answer within \boxed{}." が役立ちます。
- プロンプトを含む評価設定の詳細については、ドキュメントを参照してください。
評価では、生成に temperature=0.6 と top_p=0.95 を使用しています。
モデルを評価する際には、期待される性能を正確に評価するために複数回のテストを行うことを推奨します。

制限事項

EXAONE言語モデルには一定の制限があり、時々不適切な応答を生成する可能性があります。言語モデルはトークンの出力確率に基づいて応答を生成し、学習データからの学習中に決定されます。学習データから個人情報、有害情報、偏見のある情報を排除するよう努めていますが、一部の問題のあるコンテンツが含まれる可能性があり、望ましくない応答につながることがあります。EXAONE言語モデルによって生成されるテキストは、LG AI Researchの意見を反映していないことに注意してください。

個人情報、有害情報またはその他の不適切な情報を含む不適切な回答が生成されることがあります。
年齢、性別、人種などに関連する偏見のある応答が生成されることがあります。
生成される応答は学習データの統計に大きく依存するため、意味的または構文的に誤った文が生成されることがあります。
モデルは最新の情報を反映していないため、応答が誤っていたり矛盾したりすることがあります。

LG AI Researchは、EXAONE言語モデルから生じる潜在的なリスクを減らすために努力しています。ユーザーは、EXAONE言語モデルを使用する際に、LG AIの倫理原則に違反する不適切な出力を誘発するような悪意のある活動（例: 違法情報の入力）に従事してはいけません。

📄 ライセンス

このモデルはEXAONE AI Model License Agreement 1.1 - NCのもとでライセンスされています。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}