EXAONE-Deep-7.8B-GGUF開源模型 - 支持英韓語，輕鬆完成文本生成

首頁

EXAONE Deep 7.8B GGUF

由Mungert開發

採用IQ-DynamicGate技術的超低位量化（1-2比特）的7.8B參數模型，支持英語和韓語文本生成任務。

大型語言模型支持多種語言開源協議:其他 #超低位量化 #動態精度分配 #邊緣設備優化

下載量 1,791

發布時間 : 3/19/2025

模型概述

EXAONE-Deep-7.8B是一個基於LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct微調的模型，採用創新的IQ-DynamicGate技術進行超低位量化，適用於內存受限的部署環境和邊緣設備。

模型特點

IQ-DynamicGate技術

採用精度自適應量化技術，在超低位模型（1-2比特）中顯著提升性能。

動態精度分配

前25%和後25%的層使用IQ4_XS，中間50%的層使用IQ2_XXS/IQ3_S，優化效率和精度。

關鍵組件保護

嵌入層和輸出層使用Q5_K，減少38%的誤差傳播。

極致內存效率

適用於內存受限的部署環境，支持CPU和邊緣設備。

模型能力

文本生成

多語言支持（英語、韓語）

超低位量化推理

使用案例

內存受限的部署環境

邊緣設備推理

在內存有限的邊緣設備上運行文本生成任務。

顯著降低內存佔用，保持合理精度。

研究與應用

超低位量化研究

探索1-2比特量化技術在大型語言模型中的應用。

提供量化性能對比數據，支持研究需求。

🚀 EXAONE-Deep-7.8B GGUF模型

EXAONE-Deep-7.8B GGUF模型是LG AI Research開發的一系列語言模型，具有超低比特量化等先進技術，在數學和編碼等推理任務中表現出色。該模型提供了多種格式以適應不同的硬件和內存需求，可廣泛應用於AI網絡監控等領域。

🚀 快速開始

我們推薦使用transformers v4.43.1或更高版本。以下是使用該模型進行對話推理的代碼示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True    # 選擇流式輸出選項

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 選擇你的提示：
#   數學示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韓語多項選擇題示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

⚠️ 重要提示

EXAONE Deep模型經過優化配置訓練，因此建議遵循使用指南部分以實現最佳性能。

✨ 主要特性

超低比特量化與IQ-DynamicGate (1 - 2比特)

我們最新的量化方法為超低比特模型（1 - 2比特）引入了精度自適應量化，並在Llama - 3 - 8B上通過基準測試證明了其改進效果。這種方法採用特定層策略，在保持極高內存效率的同時保留準確性。

基準測試環境

所有測試均在Llama - 3 - 8B - Instruct上進行，使用以下條件：

標準困惑度評估流程
2048令牌上下文窗口
所有量化方式使用相同的提示集

方法

動態精度分配：
- 前/後25%的層 → IQ4_XS（選定層）
- 中間50% → IQ2_XXS/IQ3_S（提高效率）
關鍵組件保護：
- 嵌入/輸出層使用Q5_K
- 與標準1 - 2比特量化相比，誤差傳播降低38%

量化性能比較（Llama - 3 - 8B）

量化方式	標準困惑度	DynamicGate困惑度	困惑度變化	標準大小	DG大小	大小變化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

關鍵改進：

🔥 IQ1_M的困惑度大幅降低43.9%（從27.46降至15.41）
🚀 IQ2_S的困惑度降低36.9%，同時僅增加0.2GB
⚡ IQ1_S儘管採用1比特量化，但仍保持39.7%的更高準確性

權衡：

所有變體的大小均有適度增加（0.1 - 0.3GB）
推理速度保持相近（差異小於5%）

何時使用這些模型

📌 將模型裝入GPU顯存

✔ 內存受限的部署

✔ 可以容忍1 - 2比特誤差的CPU和邊緣設備

✔ 超低比特量化研究

選擇正確的模型格式

選擇正確的模型格式取決於你的硬件能力和內存限制。

BF16（腦浮點16） – 若支持BF16加速則使用

一種16位浮點格式，專為更快的計算而設計，同時保留良好的精度。
提供與FP32相似的動態範圍，但內存使用更低。
若你的硬件支持BF16加速（檢查設備規格），則推薦使用。
與FP32相比，適用於高性能推理且內存佔用減少。

📌 使用BF16的情況： ✔ 你的硬件具有原生BF16支持（例如，較新的GPU、TPU）。 ✔ 你希望在節省內存的同時獲得更高的精度。 ✔ 你計劃將模型重新量化為另一種格式。

📌 避免使用BF16的情況： ❌ 你的硬件不支持BF16（可能會回退到FP32並運行更慢）。 ❌ 你需要與缺乏BF16優化的舊設備兼容。

F16（浮點16） – 比BF16更廣泛支持

一種16位浮點格式，精度較高，但取值範圍小於BF16。
適用於大多數支持FP16加速的設備（包括許多GPU和一些CPU）。
數值精度略低於BF16，但通常足以進行推理。

📌 使用F16的情況： ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、內存使用和準確性之間取得平衡。 ✔ 你在GPU或其他針對FP16計算優化的設備上運行。

📌 避免使用F16的情況： ❌ 你的設備缺乏原生FP16支持（可能運行比預期更慢）。 ❌ 你有內存限制。

量化模型（Q4_K、Q6_K、Q8等） – 用於CPU和低顯存推理

量化可在儘可能保持準確性的同時減小模型大小和內存使用。

低比特模型（Q4_K） → 最適合最小內存使用，可能精度較低。
高比特模型（Q6_K、Q8_0） → 準確性更好，需要更多內存。

📌 使用量化模型的情況： ✔ 你在CPU上運行推理，需要優化的模型。 ✔ 你的設備顯存較低，無法加載全精度模型。 ✔ 你希望在保持合理準確性的同時減少內存佔用。

📌 避免使用量化模型的情況： ❌ 你需要最高準確性（全精度模型更適合）。 ❌ 你的硬件有足夠的顯存用於更高精度的格式（BF16/F16）。

極低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

這些模型針對極端內存效率進行了優化，非常適合低功耗設備或大規模部署，其中內存是關鍵限制因素。

IQ3_XS：超低比特量化（3比特），具有極端內存效率。
- 用例：最適合超低內存設備，即使Q4_K也太大的情況。
- 權衡：與高比特量化相比，準確性較低。
IQ3_S：小塊大小，實現最大內存效率。
- 用例：最適合低內存設備，當IQ3_XS過於激進時。
IQ3_M：中等塊大小，比IQ3_S具有更好的準確性。
- 用例：適用於低內存設備，當IQ3_S限制過多時。
Q4_K：4比特量化，具有逐塊優化以提高準確性。
- 用例：最適合低內存設備，當Q6_K太大時。
Q4_0：純4比特量化，針對ARM設備進行了優化。
- 用例：最適合基於ARM的設備或低內存環境。

模型格式選擇總結表

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	減少內存的高速推理
F16	高	高	支持FP16的設備	當BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境的最佳選擇
Q6_K	中等	適中	內存較多的CPU	量化模型中準確性較好的選擇
Q8_0	高	適中	有足夠顯存的CPU或GPU	量化模型中準確性最高的選擇
IQ3_XS	非常低	非常低	超低內存設備	極端內存效率和低準確性
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備進行優化

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關框架文檔進行安裝。

💻 使用示例

基礎用法

# 以下是使用模型進行推理的基礎代碼示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True    # 選擇流式輸出選項

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 選擇你的提示：
#   數學示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韓語多項選擇題示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

高級用法

文檔未提及高級用法相關代碼示例，可根據具體需求對基礎代碼進行擴展。

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	LGAI - EXAONE/EXAONE - 3.5 - 7.8B - Instruct
基礎模型關係	微調
許可證	exaone
許可證名稱	exaone
許可證鏈接	LICENSE
語言	英語、韓語
標籤	lg - ai、exaone、exaone - deep
任務類型	文本生成
庫名稱	transformers

包含文件及詳情

`EXAONE - Deep - 7.8B - bf16.gguf`

模型權重保存為BF16格式。
如果你想將模型重新量化為不同格式，請使用此文件。
如果你的設備支持BF16加速，則最佳。

`EXAONE - Deep - 7.8B - f16.gguf`

模型權重存儲為F16格式。
如果你的設備支持FP16，特別是當BF16不可用時，請使用此文件。

`EXAONE - Deep - 7.8B - bf16 - q8_0.gguf`

輸出和嵌入保持為BF16格式。
所有其他層量化為Q8_0。
如果你的設備支持BF16，並且你想要量化版本，請使用此文件。

`EXAONE - Deep - 7.8B - f16 - q8_0.gguf`

輸出和嵌入保持為F16格式。
所有其他層量化為Q8_0。

`EXAONE - Deep - 7.8B - q4_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q4_K。
適合內存有限的CPU推理。

`EXAONE - Deep - 7.8B - q4_k_s.gguf`

最小的Q4_K變體，以犧牲準確性為代價減少內存使用。
最適合極低內存設置。

`EXAONE - Deep - 7.8B - q6_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q6_K。

`EXAONE - Deep - 7.8B - q8_0.gguf`

完全Q8量化的模型，準確性更好。
需要更多內存，但提供更高的精度。

`EXAONE - Deep - 7.8B - iq3_xs.gguf`

IQ3_XS量化，針對極端內存效率進行了優化。
最適合超低內存設備。

`EXAONE - Deep - 7.8B - iq3_m.gguf`

IQ3_M量化，提供中等塊大小以提高準確性。
適用於低內存設備。

`EXAONE - Deep - 7.8B - q4_0.gguf`

純Q4_0量化，針對ARM設備進行了優化。
最適合低內存環境。
若追求更高準確性，優先選擇IQ4_NL。

測試模型

測試說明

如果你發現這些模型有用，請點擊“點贊”！幫助測試AI驅動的網絡監控助手，進行量子就緒安全檢查： 👉 免費網絡監控器

測試方法

點擊任何頁面右下角的聊天圖標。
選擇一個AI助手類型：
- TurboLLM (GPT - 4 - mini)
- FreeLLM (開源)
- TestLLM (僅實驗性CPU)

測試內容

我正在突破小型開源模型在AI網絡監控方面的極限，具體包括：

針對即時網絡服務的函數調用
模型可以多小，同時仍能處理：
- 自動化Nmap掃描
- 量子就緒檢查
- Metasploit集成

各助手特點

🟡 TestLLM – 當前實驗模型（llama.cpp在6個CPU線程上）：
- ✅ 零配置設置
- ⏳ 30秒加載時間（推理慢，但無API成本）
- 🔧 尋求幫助！ 如果你對邊緣設備AI感興趣，讓我們合作！
🟢 TurboLLM – 使用gpt - 4 - mini進行：
- 即時網絡診斷
- 自動化滲透測試 (Nmap/Metasploit)
- 🔑 通過下載我們的免費網絡監控代理獲取更多令牌
🔵 HugLLM – 開源模型（約80億參數）：
- 比TurboLLM多2倍令牌
- AI驅動的日誌分析
- 🌐 在Hugging Face推理API上運行

測試用的AI命令示例

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"

評估結果

模型	MATH - 500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek - R1 - Distill - Qwen - 32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ - 32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek - R1 - Distill - Llama - 70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek - R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek - R1 - Distill - Qwen - 7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek - R1 - Distill - Llama - 8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1 - mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek - R1 - Distill - Qwen - 1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

部署

EXAONE Deep模型可以在各種框架中進行推理，例如：

TensorRT - LLM
vLLM
SGLang
llama.cpp
Ollama
LM - Studio

更多關於推理框架的詳細信息，請參考[EXAONE Deep GitHub](https://github.com/LG - AI - EXAONE/EXAONE - Deep)。

量化

我們提供了使用AWQ預量化的EXAONE Deep模型，以及幾種GGUF格式的量化類型。請參考[EXAONE Deep集合](https://huggingface.co/collections/LGAI - EXAONE/exaone - deep - 67d119918816ec6efa79a4aa)以找到相應的量化模型。

使用指南

為了實現預期的性能，建議使用以下配置：

確保模型以<thought>\n開始進行推理步驟。省略它可能會降低模型的輸出質量。可以通過使用tokenizer.apply_chat_template()並設置add_generation_prompt = True輕鬆應用此功能。請查看快速開始部分的示例代碼。
EXAONE Deep模型的推理步驟通常包含在<thought>\n...\n</thought>中，可能有很多令牌，因此在多輪對話中可能需要刪除之前的推理步驟。提供的分詞器會自動處理此問題。
避免使用系統提示，在用戶提示中構建指令。
額外的指令有助於模型更深入地推理，從而生成更好的輸出。
- 對於數學問題，指令**"Please reason step by step, and put your final answer within \boxed{}."** 很有幫助。
- 有關我們評估設置（包括提示）的更多信息，請參考文檔。
在評估中，我們使用temperature = 0.6和top_p = 0.95進行生成。
評估模型時，建議多次測試以準確評估預期性能。

侷限性

EXAONE語言模型有一定的侷限性，可能偶爾會生成不適當的響應。語言模型根據令牌的輸出概率生成響應，這是在從訓練數據中學習時確定的。雖然我們已盡力從訓練數據中排除個人、有害和有偏見的信息，但仍可能包含一些有問題的內容，可能導致不良響應。請注意，EXAONE語言模型生成的文本並不反映LG AI Research的觀點。

可能會生成不適當的答案，包含個人、有害或其他不適當的信息。
可能會生成有偏見的響應，與年齡、性別、種族等相關。
生成的響應嚴重依賴於訓練數據的統計信息，可能導致生成語義或語法錯誤的句子。
由於模型不反映最新信息，響應可能是錯誤或矛盾的。

LG AI Research致力於減少EXAONE語言模型可能帶來的潛在風險。用戶在使用EXAONE語言模型時，不得進行任何可能誘導生成違反LG AI道德原則的不適當輸出的惡意活動（例如，輸入非法信息）。

🔧 技術細節

推理框架

EXAONE Deep模型可以在多種框架中進行推理，如TensorRT - LLM、vLLM、SGLang、llama.cpp、Ollama和LM - Studio。更多詳細信息可參考[EXAONE Deep GitHub](https://github.com/LG - AI - EXAONE/EXAONE - Deep)。

量化技術

提供了使用AWQ預量化的EXAONE Deep模型，以及幾種GGUF格式的量化類型。可在[EXAONE Deep集合](https://huggingface.co/collections/LGAI - EXAONE/exaone - deep - 67d119918816ec6efa79a4aa)中找到相應的量化模型。

📄 許可證

該模型遵循EXAONE AI模型許可協議1.1 - 非商業版。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}