EXAONE-Deep-32B-GGUF開源大語言模型 - 免費部署支持英韓語文本生成

首頁

EXAONE Deep 32B GGUF

由Mungert開發

EXAONE-Deep-32B是一個32B參數的大語言模型，支持英語和韓語，專為文本生成任務設計。

大型語言模型支持多種語言開源協議:其他 #超低位量化 #動態精度分配 #邊緣設備優化

下載量 2,249

發布時間 : 3/25/2025

模型概述

該模型基於LGAI-EXAONE/EXAONE-3.5-32B-Instruct微調，採用IQ-DynamicGate超低位量化技術，優化了內存效率和推理速度。

模型特點

IQ-DynamicGate超低位量化

採用精度自適應量化技術，在1-2比特量化下顯著提升模型準確性，同時保持高內存效率。

動態精度分配

前25%和後25%的層使用IQ4_XS，中間50%的層使用IQ2_XXS/IQ3_S，優化了模型性能。

關鍵組件保護

嵌入層和輸出層使用Q5_K量化，減少錯誤傳播，提升模型整體準確性。

模型能力

文本生成

多語言支持（英語、韓語）

超低位量化推理

使用案例

內存受限環境

GPU顯存適配

在顯存有限的GPU上運行大型語言模型。

通過量化技術，模型顯存佔用大幅降低。

CPU和邊緣設備部署

在低功耗設備上運行模型。

超低位量化使得模型可以在資源受限的設備上運行。

研究與應用

超低位量化研究

研究1-2比特量化對模型性能的影響。

DynamicGate量化技術顯著提升了低位量化的模型準確性。

🚀 EXAONE-Deep-32B GGUF模型

EXAONE-Deep-32B GGUF模型是LG AI Research開發併發布的一系列模型，在數學和編碼等推理任務中表現出色。該模型提供了多種量化格式，可根據不同的硬件和內存需求進行選擇，以實現高效的推理和應用。

🚀 快速開始

我們建議使用 transformers v4.43.1 或更高版本。以下是使用該模型進行對話推理的代碼示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-32B"
streaming = True    # 選擇流式輸出選項

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 選擇你的提示：
#   數學示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韓語多項選擇題示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

⚠️ 重要提示

EXAONE Deep模型經過優化配置訓練，建議遵循使用指南部分以實現最佳性能。

✨ 主要特性

超低比特量化與IQ-DynamicGate (1 - 2比特)

我們最新的量化方法為超低比特模型（1 - 2比特）引入了精度自適應量化，並在Llama - 3 - 8B上通過基準測試證明了其改進效果。這種方法採用特定層策略，在保持極高內存效率的同時保留準確性。

基準測試環境

所有測試均在Llama - 3 - 8B - Instruct上進行，使用以下配置：

標準困惑度評估管道
2048令牌上下文窗口
所有量化使用相同的提示集

關鍵改進

動態精度分配：
- 前/後25%的層 → IQ4_XS（選定層）
- 中間50% → IQ2_XXS/IQ3_S（提高效率）
關鍵組件保護：
- 嵌入/輸出層使用Q5_K
- 與標準1 - 2比特量化相比，誤差傳播降低38%

量化性能比較（Llama - 3 - 8B）

量化方式	標準困惑度	DynamicGate困惑度	困惑度變化	標準大小	DG大小	大小變化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

關鍵說明：

PPL = 困惑度（越低越好）
Δ PPL = 從標準量化到DynamicGate量化的百分比變化
速度 = 推理時間（CPU avx2，2048令牌上下文）
大小差異反映了混合量化的開銷

關鍵改進：

🔥 IQ1_M的困惑度大幅降低43.9%（從27.46降至15.41）
🚀 IQ2_S的困惑度降低36.9%，同時僅增加0.2GB
⚡ IQ1_S儘管採用1比特量化，但仍保持39.7%的更高準確性

權衡：

所有變體的大小都有適度增加（0.1 - 0.3GB）
推理速度相當（差異<5%）

使用場景

📌 將模型裝入GPU顯存 ✔ 內存受限的部署 ✔ 可以容忍1 - 2比特誤差的CPU和邊緣設備 ✔ 超低比特量化研究

選擇合適的模型格式

選擇正確的模型格式取決於你的硬件能力和內存限制。

BF16（腦浮點16）– 如果支持BF16加速則使用

一種16位浮點格式，專為更快的計算而設計，同時保留良好的精度。
提供與FP32 相似的動態範圍，但內存使用更低。
如果你的硬件支持BF16加速（檢查設備規格），建議使用。
與FP32相比，適用於高性能推理且內存佔用減少。

📌 使用BF16的情況： ✔ 你的硬件具有原生BF16支持（例如，較新的GPU、TPU）。 ✔ 你希望在節省內存的同時獲得更高的精度。 ✔ 你計劃將模型重新量化為另一種格式。

📌 避免使用BF16的情況： ❌ 你的硬件不支持BF16（可能會回退到FP32並運行較慢）。 ❌ 你需要與缺乏BF16優化的舊設備兼容。

F16（浮點16）– 比BF16更廣泛支持

一種16位浮點格式，精度較高，但值的範圍比BF16小。
適用於大多數支持FP16加速的設備（包括許多GPU和一些CPU）。
數值精度略低於BF16，但通常足以進行推理。

📌 使用F16的情況： ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、內存使用和準確性之間取得平衡。 ✔ 你在GPU或其他針對FP16計算優化的設備上運行。

📌 避免使用F16的情況： ❌ 你的設備缺乏原生FP16支持（可能運行比預期慢）。 ❌ 你有內存限制。

量化模型（Q4_K、Q6_K、Q8等）– 用於CPU和低顯存推理

量化可以在儘可能保持準確性的同時減小模型大小和內存使用。

低比特模型（Q4_K） → 最適合最小內存使用，可能精度較低。
高比特模型（Q6_K、Q8_0） → 準確性更好，需要更多內存。

📌 使用量化模型的情況： ✔ 你在CPU上運行推理，需要優化的模型。 ✔ 你的設備顯存較低，無法加載全精度模型。 ✔ 你希望在保持合理準確性的同時減少內存佔用。

📌 避免使用量化模型的情況： ❌ 你需要最高準確性（全精度模型更適合）。 ❌ 你的硬件有足夠的顯存用於更高精度的格式（BF16/F16）。

極低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

這些模型針對極端內存效率進行了優化，非常適合低功耗設備或大規模部署，其中內存是關鍵限制因素。

IQ3_XS：超低比特量化（3比特），具有極端內存效率。
- 使用場景：最適合超低內存設備，即使Q4_K也太大。
- 權衡：與高比特量化相比，準確性較低。
IQ3_S：小塊大小，實現最大內存效率。
- 使用場景：最適合低內存設備，IQ3_XS過於激進。
IQ3_M：中等塊大小，比IQ3_S準確性更好。
- 使用場景：適用於低內存設備，IQ3_S限制太大。
Q4_K：4比特量化，具有逐塊優化以提高準確性。
- 使用場景：最適合低內存設備，Q6_K太大。
Q4_0：純4比特量化，針對ARM設備進行了優化。
- 使用場景：最適合基於ARM的設備或低內存環境。

模型格式選擇總結表

模型格式	精度	內存使用	設備要求	最佳使用場景
BF16	最高	高	支持BF16的GPU/CPU	減少內存的高速推理
F16	高	高	支持FP16的設備	BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境的最佳選擇
Q6_K	中	中等	內存更多的CPU	量化時更好的準確性
Q8_0	高	中等	有足夠顯存的CPU或GPU	量化模型中最佳準確性
IQ3_XS	非常低	非常低	超低內存設備	極端內存效率和低準確性
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備優化

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關框架（如transformers）的官方文檔進行安裝。

💻 使用示例

基礎用法

# 以下是使用該模型進行對話推理的示例代碼
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-32B"
streaming = True    # 選擇流式輸出選項

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 選擇你的提示：
#   數學示例 (AIME 2024)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韓語多項選擇題示例 (CSAT Math 2025)
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

📚 詳細文檔

包含文件及詳情

`EXAONE-Deep-32B-bf16.gguf`

模型權重以BF16保存。
如果你想將模型重新量化為不同格式，請使用此文件。
如果你的設備支持BF16加速，則為最佳選擇。

`EXAONE-Deep-32B-f16.gguf`

模型權重以F16存儲。
如果你的設備支持FP16，特別是BF16不可用時使用。

`EXAONE-Deep-32B-bf16-q8_0.gguf`

輸出和嵌入保持為BF16。
所有其他層量化為Q8_0。
如果你的設備支持BF16，並且你想要量化版本，請使用。

`EXAONE-Deep-32B-f16-q8_0.gguf`

輸出和嵌入保持為F16。
所有其他層量化為Q8_0。

`EXAONE-Deep-32B-q4_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q4_K。
適合內存有限的CPU推理。

`EXAONE-Deep-32B-q4_k_s.gguf`

最小的Q4_K變體，以準確性為代價使用更少的內存。
最適合極低內存設置。

`EXAONE-Deep-32B-q6_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q6_K。

`EXAONE-Deep-32B-q8_0.gguf`

完全Q8量化的模型，以獲得更好的準確性。
需要更多內存，但提供更高的精度。

`EXAONE-Deep-32B-iq3_xs.gguf`

IQ3_XS量化，針對極端內存效率進行了優化。
最適合超低內存設備。

`EXAONE-Deep-32B-iq3_m.gguf`

IQ3_M量化，提供中等塊大小以提高準確性。
適用於低內存設備。

`EXAONE-Deep-32B-q4_0.gguf`

純Q4_0量化，針對ARM設備進行了優化。
最適合低內存環境。
為獲得更好的準確性，優先選擇IQ4_NL。

測試模型相關

如果你發現這些模型有用，請點贊 ❤。也非常感謝你能測試我的網絡監控助手，點擊👉 網絡監控助手。

💬 點擊聊天圖標（主頁和儀表盤頁面右下角）。選擇一個大語言模型；在大語言模型類型之間切換：TurboLLM -> FreeLLM -> TestLLM。

正在測試的內容

我正在針對我的網絡監控服務進行函數調用實驗。使用小型開源模型。我關注的問題是“模型可以多小還能正常工作”。

🟡 TestLLM – 使用llama.cpp在CPU虛擬機的6個線程上運行當前測試模型（加載大約需要15秒。推理速度相當慢，並且一次只處理一個用戶提示 — 仍在努力擴展！）。如果你好奇，我很樂意分享它的工作原理！

其他可用的AI助手

🟢 TurboLLM – 使用gpt - 4o - mini，速度快！注意：由於OpenAI模型價格昂貴，令牌有限，但你可以登錄或下載免費的網絡監控代理以獲取更多令牌，或者使用TestLLM。

🔵 HugLLM – 運行開源Hugging Face模型，速度快，運行小型模型（≈8B），因此質量較低，可獲得2倍更多令牌（取決於Hugging Face API可用性）

模型介紹

我們推出了EXAONE Deep，它在包括數學和編碼基準測試在內的各種推理任務中表現出卓越的能力，參數範圍從2.4B到32B，由LG AI Research開發併發布。評估結果顯示：1) EXAONE Deep 2.4B優於其他同等規模的模型；2) EXAONE Deep 7.8B不僅優於同等規模的開放權重模型，還優於專有推理模型OpenAI o1 - mini；3) EXAONE Deep 32B與領先的開放權重模型相比具有競爭力。

更多詳細信息，請參考我們的文檔、博客和GitHub。

該倉庫包含32B推理語言模型，具有以下特點：

屬性	詳情
模型類型	推理語言模型
參數數量（不包括嵌入）	30.95B
層數	64
注意力頭數量	GQA，40個查詢頭和8個鍵值頭
詞彙表大小	102,400
上下文長度	32,768令牌

評估

以下表格顯示了數學和編碼等推理任務的評估結果。完整評估結果可在文檔中找到。

模型	MATH - 500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek - R1 - Distill - Qwen - 32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ - 32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek - R1 - Distill - Llama - 70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek - R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek - R1 - Distill - Qwen - 7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek - R1 - Distill - Llama - 8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1 - mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek - R1 - Distill - Qwen - 1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

部署

EXAONE Deep模型可以在各種框架中進行推理，例如：

TensorRT - LLM
vLLM
SGLang
llama.cpp
Ollama
LM - Studio

有關推理框架的更多詳細信息，請參考我們的EXAONE Deep GitHub。

量化

我們提供了使用AWQ預量化的EXAONE Deep模型，以及幾種GGUF格式的量化類型。請參考我們的EXAONE Deep集合以找到相應的量化模型。

使用指南

為了實現預期的性能，我們建議使用以下配置：

確保模型以<thought>\n開始進行推理步驟。省略它可能會降低模型的輸出質量。你可以通過使用tokenizer.apply_chat_template()並設置add_generation_prompt=True輕鬆應用此功能。請查看快速開始部分的示例代碼。
EXAONE Deep模型的推理步驟通常包含在<thought>\n...\n</thought>中，包含大量令牌，因此在多輪對話中可能需要刪除之前的推理步驟。提供的分詞器會自動處理此問題。
避免使用系統提示，在用戶提示中構建指令。
額外的指令有助於模型更深入地推理，從而生成更好的輸出。
- 對於數學問題，指令**"請逐步推理，並將最終答案放在\boxed{}中。"** 很有幫助。
- 有關我們評估設置（包括提示）的更多信息，請參考我們的文檔。
在我們的評估中，我們使用temperature = 0.6和top_p = 0.95進行生成。
評估模型時，建議多次測試以準確評估預期性能。

侷限性

EXAONE語言模型有一定的侷限性，偶爾可能會生成不適當的響應。語言模型根據令牌的輸出概率生成響應，這是在從訓練數據學習過程中確定的。雖然我們已盡力從訓練數據中排除個人、有害和有偏見的信息，但仍可能包含一些有問題的內容，可能導致不良響應。請注意，EXAONE語言模型生成的文本並不反映LG AI Research的觀點。

可能會生成不適當的答案，包含個人、有害或其他不適當的信息。
可能會生成有偏見的響應，與年齡、性別、種族等相關。
生成的響應嚴重依賴於訓練數據的統計信息，可能導致生成語義或語法錯誤的句子。
由於模型不反映最新信息，響應可能是錯誤或矛盾的。

LG AI Research努力減少EXAONE語言模型可能帶來的潛在風險。用戶在使用EXAONE語言模型時，不得進行任何可能誘導生成違反LG AI道德原則的不適當輸出的惡意活動（例如，輸入非法信息）。

🔧 技術細節

文檔未提供詳細的技術實現細節。

📄 許可證

該模型遵循EXAONE AI模型許可協議1.1 - 非商業版。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}