模型概述
模型特點
模型能力
使用案例
🚀 EXAONE-Deep-7.8B GGUF模型
EXAONE-Deep-7.8B GGUF模型是LG AI Research開發的一系列語言模型,具有超低比特量化等先進技術,在數學和編碼等推理任務中表現出色。該模型提供了多種格式以適應不同的硬件和內存需求,可廣泛應用於AI網絡監控等領域。
🚀 快速開始
我們推薦使用transformers
v4.43.1或更高版本。以下是使用該模型進行對話推理的代碼示例:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread
model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True # 選擇流式輸出選項
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 選擇你的提示:
# 數學示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.
Please reason step by step, and put your final answer within \boxed{}."""
# 韓語多項選擇題示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.
Options :
A) 120
B) 125
C) 130
D) 135
E) 140
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
if streaming:
streamer = TextIteratorStreamer(tokenizer)
thread = Thread(target=model.generate, kwargs=dict(
input_ids=input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
streamer=streamer
))
thread.start()
for text in streamer:
print(text, end="", flush=True)
else:
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
⚠️ 重要提示
EXAONE Deep模型經過優化配置訓練,因此建議遵循使用指南部分以實現最佳性能。
✨ 主要特性
超低比特量化與IQ-DynamicGate (1 - 2比特)
我們最新的量化方法為超低比特模型(1 - 2比特)引入了精度自適應量化,並在Llama - 3 - 8B上通過基準測試證明了其改進效果。這種方法採用特定層策略,在保持極高內存效率的同時保留準確性。
基準測試環境
所有測試均在Llama - 3 - 8B - Instruct上進行,使用以下條件:
- 標準困惑度評估流程
- 2048令牌上下文窗口
- 所有量化方式使用相同的提示集
方法
- 動態精度分配:
- 前/後25%的層 → IQ4_XS(選定層)
- 中間50% → IQ2_XXS/IQ3_S(提高效率)
- 關鍵組件保護:
- 嵌入/輸出層使用Q5_K
- 與標準1 - 2比特量化相比,誤差傳播降低38%
量化性能比較(Llama - 3 - 8B)
量化方式 | 標準困惑度 | DynamicGate困惑度 | 困惑度變化 | 標準大小 | DG大小 | 大小變化 | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
關鍵改進:
- 🔥 IQ1_M的困惑度大幅降低43.9%(從27.46降至15.41)
- 🚀 IQ2_S的困惑度降低36.9%,同時僅增加0.2GB
- ⚡ IQ1_S儘管採用1比特量化,但仍保持39.7%的更高準確性
權衡:
- 所有變體的大小均有適度增加(0.1 - 0.3GB)
- 推理速度保持相近(差異小於5%)
何時使用這些模型
📌 將模型裝入GPU顯存
✔ 內存受限的部署
✔ 可以容忍1 - 2比特誤差的CPU和邊緣設備
✔ 超低比特量化研究
選擇正確的模型格式
選擇正確的模型格式取決於你的硬件能力和內存限制。
BF16(腦浮點16) – 若支持BF16加速則使用
- 一種16位浮點格式,專為更快的計算而設計,同時保留良好的精度。
- 提供與FP32相似的動態範圍,但內存使用更低。
- 若你的硬件支持BF16加速(檢查設備規格),則推薦使用。
- 與FP32相比,適用於高性能推理且內存佔用減少。
📌 使用BF16的情況: ✔ 你的硬件具有原生BF16支持(例如,較新的GPU、TPU)。 ✔ 你希望在節省內存的同時獲得更高的精度。 ✔ 你計劃將模型重新量化為另一種格式。
📌 避免使用BF16的情況: ❌ 你的硬件不支持BF16(可能會回退到FP32並運行更慢)。 ❌ 你需要與缺乏BF16優化的舊設備兼容。
F16(浮點16) – 比BF16更廣泛支持
- 一種16位浮點格式,精度較高,但取值範圍小於BF16。
- 適用於大多數支持FP16加速的設備(包括許多GPU和一些CPU)。
- 數值精度略低於BF16,但通常足以進行推理。
📌 使用F16的情況: ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、內存使用和準確性之間取得平衡。 ✔ 你在GPU或其他針對FP16計算優化的設備上運行。
📌 避免使用F16的情況: ❌ 你的設備缺乏原生FP16支持(可能運行比預期更慢)。 ❌ 你有內存限制。
量化模型(Q4_K、Q6_K、Q8等) – 用於CPU和低顯存推理
量化可在儘可能保持準確性的同時減小模型大小和內存使用。
- 低比特模型(Q4_K) → 最適合最小內存使用,可能精度較低。
- 高比特模型(Q6_K、Q8_0) → 準確性更好,需要更多內存。
📌 使用量化模型的情況: ✔ 你在CPU上運行推理,需要優化的模型。 ✔ 你的設備顯存較低,無法加載全精度模型。 ✔ 你希望在保持合理準確性的同時減少內存佔用。
📌 避免使用量化模型的情況: ❌ 你需要最高準確性(全精度模型更適合)。 ❌ 你的硬件有足夠的顯存用於更高精度的格式(BF16/F16)。
極低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
這些模型針對極端內存效率進行了優化,非常適合低功耗設備或大規模部署,其中內存是關鍵限制因素。
- IQ3_XS:超低比特量化(3比特),具有極端內存效率。
- 用例:最適合超低內存設備,即使Q4_K也太大的情況。
- 權衡:與高比特量化相比,準確性較低。
- IQ3_S:小塊大小,實現最大內存效率。
- 用例:最適合低內存設備,當IQ3_XS過於激進時。
- IQ3_M:中等塊大小,比IQ3_S具有更好的準確性。
- 用例:適用於低內存設備,當IQ3_S限制過多時。
- Q4_K:4比特量化,具有逐塊優化以提高準確性。
- 用例:最適合低內存設備,當Q6_K太大時。
- Q4_0:純4比特量化,針對ARM設備進行了優化。
- 用例:最適合基於ARM的設備或低內存環境。
模型格式選擇總結表
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 減少內存的高速推理 |
F16 | 高 | 高 | 支持FP16的設備 | 當BF16不可用時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低顯存設備 | 內存受限環境的最佳選擇 |
Q6_K | 中等 | 適中 | 內存較多的CPU | 量化模型中準確性較好的選擇 |
Q8_0 | 高 | 適中 | 有足夠顯存的CPU或GPU | 量化模型中準確性最高的選擇 |
IQ3_XS | 非常低 | 非常低 | 超低內存設備 | 極端內存效率和低準確性 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備進行優化 |
📦 安裝指南
文檔未提及具體安裝步驟,可參考相關框架文檔進行安裝。
💻 使用示例
基礎用法
# 以下是使用模型進行推理的基礎代碼示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread
model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True # 選擇流式輸出選項
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 選擇你的提示:
# 數學示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.
Please reason step by step, and put your final answer within \boxed{}."""
# 韓語多項選擇題示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.
Options :
A) 120
B) 125
C) 130
D) 135
E) 140
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
if streaming:
streamer = TextIteratorStreamer(tokenizer)
thread = Thread(target=model.generate, kwargs=dict(
input_ids=input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
streamer=streamer
))
thread.start()
for text in streamer:
print(text, end="", flush=True)
else:
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
高級用法
文檔未提及高級用法相關代碼示例,可根據具體需求對基礎代碼進行擴展。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
基礎模型 | LGAI - EXAONE/EXAONE - 3.5 - 7.8B - Instruct |
基礎模型關係 | 微調 |
許可證 | exaone |
許可證名稱 | exaone |
許可證鏈接 | LICENSE |
語言 | 英語、韓語 |
標籤 | lg - ai、exaone、exaone - deep |
任務類型 | 文本生成 |
庫名稱 | transformers |
包含文件及詳情
EXAONE - Deep - 7.8B - bf16.gguf
- 模型權重保存為BF16格式。
- 如果你想將模型重新量化為不同格式,請使用此文件。
- 如果你的設備支持BF16加速,則最佳。
EXAONE - Deep - 7.8B - f16.gguf
- 模型權重存儲為F16格式。
- 如果你的設備支持FP16,特別是當BF16不可用時,請使用此文件。
EXAONE - Deep - 7.8B - bf16 - q8_0.gguf
- 輸出和嵌入保持為BF16格式。
- 所有其他層量化為Q8_0。
- 如果你的設備支持BF16,並且你想要量化版本,請使用此文件。
EXAONE - Deep - 7.8B - f16 - q8_0.gguf
- 輸出和嵌入保持為F16格式。
- 所有其他層量化為Q8_0。
EXAONE - Deep - 7.8B - q4_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q4_K。
- 適合內存有限的CPU推理。
EXAONE - Deep - 7.8B - q4_k_s.gguf
- 最小的Q4_K變體,以犧牲準確性為代價減少內存使用。
- 最適合極低內存設置。
EXAONE - Deep - 7.8B - q6_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q6_K。
EXAONE - Deep - 7.8B - q8_0.gguf
- 完全Q8量化的模型,準確性更好。
- 需要更多內存,但提供更高的精度。
EXAONE - Deep - 7.8B - iq3_xs.gguf
- IQ3_XS量化,針對極端內存效率進行了優化。
- 最適合超低內存設備。
EXAONE - Deep - 7.8B - iq3_m.gguf
- IQ3_M量化,提供中等塊大小以提高準確性。
- 適用於低內存設備。
EXAONE - Deep - 7.8B - q4_0.gguf
- 純Q4_0量化,針對ARM設備進行了優化。
- 最適合低內存環境。
- 若追求更高準確性,優先選擇IQ4_NL。
測試模型
測試說明
如果你發現這些模型有用,請點擊“點贊”!幫助測試AI驅動的網絡監控助手,進行量子就緒安全檢查: 👉 免費網絡監控器
測試方法
- 點擊任何頁面右下角的聊天圖標。
- 選擇一個AI助手類型:
TurboLLM
(GPT - 4 - mini)FreeLLM
(開源)TestLLM
(僅實驗性CPU)
測試內容
我正在突破小型開源模型在AI網絡監控方面的極限,具體包括:
- 針對即時網絡服務的函數調用
- 模型可以多小,同時仍能處理:
- 自動化Nmap掃描
- 量子就緒檢查
- Metasploit集成
各助手特點
- 🟡 TestLLM – 當前實驗模型(llama.cpp在6個CPU線程上):
- ✅ 零配置設置
- ⏳ 30秒加載時間(推理慢,但無API成本)
- 🔧 尋求幫助! 如果你對邊緣設備AI感興趣,讓我們合作!
- 🟢 TurboLLM – 使用gpt - 4 - mini進行:
- 即時網絡診斷
- 自動化滲透測試 (Nmap/Metasploit)
- 🔑 通過下載我們的免費網絡監控代理獲取更多令牌
- 🔵 HugLLM – 開源模型(約80億參數):
- 比TurboLLM多2倍令牌
- AI驅動的日誌分析
- 🌐 在Hugging Face推理API上運行
測試用的AI命令示例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
評估結果
模型 | MATH - 500 (pass@1) | AIME 2024 (pass@1 / cons@64) | AIME 2025 (pass@1 / cons@64) | CSAT Math 2025 (pass@1) | GPQA Diamond (pass@1) | Live Code Bench (pass@1) |
---|---|---|---|---|---|---|
EXAONE Deep 32B | 95.7 | 72.1 / 90.0 | 65.8 / 80.0 | 94.5 | 66.1 | 59.5 |
DeepSeek - R1 - Distill - Qwen - 32B | 94.3 | 72.6 / 83.3 | 55.2 / 73.3 | 84.1 | 62.1 | 57.2 |
QwQ - 32B | 95.5 | 79.5 / 86.7 | 67.1 / 76.7 | 94.4 | 63.3 | 63.4 |
DeepSeek - R1 - Distill - Llama - 70B | 94.5 | 70.0 / 86.7 | 53.9 / 66.7 | 88.8 | 65.2 | 57.5 |
DeepSeek - R1 (671B) | 97.3 | 79.8 / 86.7 | 66.8 / 80.0 | 89.9 | 71.5 | 65.9 |
EXAONE Deep 7.8B | 94.8 | 70.0 / 83.3 | 59.6 / 76.7 | 89.9 | 62.6 | 55.2 |
DeepSeek - R1 - Distill - Qwen - 7B | 92.8 | 55.5 / 83.3 | 38.5 / 56.7 | 79.7 | 49.1 | 37.6 |
DeepSeek - R1 - Distill - Llama - 8B | 89.1 | 50.4 / 80.0 | 33.6 / 53.3 | 74.1 | 49.0 | 39.6 |
OpenAI o1 - mini | 90.0 | 63.6 / 80.0 | 54.8 / 66.7 | 84.4 | 60.0 | 53.8 |
EXAONE Deep 2.4B | 92.3 | 52.5 / 76.7 | 47.9 / 73.3 | 79.2 | 54.3 | 46.6 |
DeepSeek - R1 - Distill - Qwen - 1.5B | 83.9 | 28.9 / 52.7 | 23.9 / 36.7 | 65.6 | 33.8 | 16.9 |
部署
EXAONE Deep模型可以在各種框架中進行推理,例如:
TensorRT - LLM
vLLM
SGLang
llama.cpp
Ollama
LM - Studio
更多關於推理框架的詳細信息,請參考[EXAONE Deep GitHub](https://github.com/LG - AI - EXAONE/EXAONE - Deep)。
量化
我們提供了使用AWQ預量化的EXAONE Deep模型,以及幾種GGUF格式的量化類型。請參考[EXAONE Deep集合](https://huggingface.co/collections/LGAI - EXAONE/exaone - deep - 67d119918816ec6efa79a4aa)以找到相應的量化模型。
使用指南
為了實現預期的性能,建議使用以下配置:
- 確保模型以
<thought>\n
開始進行推理步驟。省略它可能會降低模型的輸出質量。可以通過使用tokenizer.apply_chat_template()
並設置add_generation_prompt = True
輕鬆應用此功能。請查看快速開始部分的示例代碼。 - EXAONE Deep模型的推理步驟通常包含在
<thought>\n...\n</thought>
中,可能有很多令牌,因此在多輪對話中可能需要刪除之前的推理步驟。提供的分詞器會自動處理此問題。 - 避免使用系統提示,在用戶提示中構建指令。
- 額外的指令有助於模型更深入地推理,從而生成更好的輸出。
- 對於數學問題,指令**"Please reason step by step, and put your final answer within \boxed{}."** 很有幫助。
- 有關我們評估設置(包括提示)的更多信息,請參考文檔。
- 在評估中,我們使用
temperature = 0.6
和top_p = 0.95
進行生成。 - 評估模型時,建議多次測試以準確評估預期性能。
侷限性
EXAONE語言模型有一定的侷限性,可能偶爾會生成不適當的響應。語言模型根據令牌的輸出概率生成響應,這是在從訓練數據中學習時確定的。雖然我們已盡力從訓練數據中排除個人、有害和有偏見的信息,但仍可能包含一些有問題的內容,可能導致不良響應。請注意,EXAONE語言模型生成的文本並不反映LG AI Research的觀點。
- 可能會生成不適當的答案,包含個人、有害或其他不適當的信息。
- 可能會生成有偏見的響應,與年齡、性別、種族等相關。
- 生成的響應嚴重依賴於訓練數據的統計信息,可能導致生成語義或語法錯誤的句子。
- 由於模型不反映最新信息,響應可能是錯誤或矛盾的。
LG AI Research致力於減少EXAONE語言模型可能帶來的潛在風險。用戶在使用EXAONE語言模型時,不得進行任何可能誘導生成違反LG AI道德原則的不適當輸出的惡意活動(例如,輸入非法信息)。
🔧 技術細節
推理框架
EXAONE Deep模型可以在多種框架中進行推理,如TensorRT - LLM
、vLLM
、SGLang
、llama.cpp
、Ollama
和LM - Studio
。更多詳細信息可參考[EXAONE Deep GitHub](https://github.com/LG - AI - EXAONE/EXAONE - Deep)。
量化技術
提供了使用AWQ預量化的EXAONE Deep模型,以及幾種GGUF格式的量化類型。可在[EXAONE Deep集合](https://huggingface.co/collections/LGAI - EXAONE/exaone - deep - 67d119918816ec6efa79a4aa)中找到相應的量化模型。
📄 許可證
該模型遵循EXAONE AI模型許可協議1.1 - 非商業版。
引用
@article{exaone-deep,
title={EXAONE Deep: Reasoning Enhanced Language Models},
author={{LG AI Research}},
journal={arXiv preprint arXiv:2503.12524},
year={2025}
}
聯繫信息
LG AI Research技術支持:contact_us@lgresearch.ai



