🚀 EXAONE-4.0-32B GGUF模型
EXAONE-4.0-32B GGUF模型結合了先進的量化技術與高效的模型架構,在文本生成任務中具備出色的推理和非推理能力,支持多語言,適用於多種自然語言處理場景。
🚀 快速開始
你需要安裝從原始版本分叉而來的transformers庫,該庫可在我們的PR中獲取。一旦此PR合併併發布,我們將更新此部分內容。
你可以通過以下命令安裝支持EXAONE 4.0的最新版本的transformers庫:
pip install git+https://github.com/lgai-exaone/transformers@add-exaone4
✨ 主要特性
- 雙模式運行:集成了非推理模式和推理模式,兼具EXAONE 3.5的出色可用性和EXAONE Deep的高級推理能力。
- 多語言支持:語言支持包括英語、韓語和西班牙語,拓展了模型的應用範圍。
- 混合注意力機制:32B模型採用混合注意力方案,將局部注意力(滑動窗口注意力)與全局注意力(全注意力)按3:1的比例結合,且在全局注意力中不使用RoPE(旋轉位置嵌入),以更好地理解全局上下文。
- QK重排序歸一化:重新調整了LayerNorm的位置,直接將其應用於注意力和MLP輸出,並在Q和K投影后添加RMS歸一化,儘管計算量增加,但能在下游任務中產生更好的性能。
- 智能工具調用:具備工具調用能力,可作為智能代理使用,通過提供工具模式實現有效的工具調用。
📦 安裝指南
安裝transformers庫
pip install git+https://github.com/lgai-exaone/transformers@add-exaone4
TensorRT-LLM部署
TensorRT-LLM在最新提交中正式支持EXAONE 4.0模型。在其發佈之前,你需要克隆TensorRT-LLM倉庫並從源代碼進行構建。
git clone https://github.com/NVIDIA/TensorRT-LLM.git
克隆倉庫後,你需要構建源代碼以進行安裝。請參考官方文檔來構建TensorRT-LLM環境。
你可以按照以下步驟運行TensorRT-LLM服務器:
- 編寫額外的配置YAML文件
kv_cache_config:
enable_block_reuse: false
- 使用配置運行服務器
trtllm-serve serve [MODEL_PATH] --backend pytorch --extra_llm_api_options extra_llm_api_config.yaml
更多詳細信息,請參考TensorRT-LLM中EXAONE的文檔。
⚠️ 重要提示
其他推理引擎(如vllm
和sglang
)目前尚未正式支持EXAONE 4.0。我們將在這些庫更新後儘快進行更新。
💻 使用示例
基礎用法
非推理模式
對於一般使用場景,你可以使用以下示例代碼來使用EXAONE 4.0模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "LGAI-EXAONE/EXAONE-4.0-32B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="bfloat16",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Explain how wonderful you are"
prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐"
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=128,
do_sample=False,
)
print(tokenizer.decode(output[0]))
推理模式
EXAONE 4.0模型具備處理複雜問題的推理能力。你可以通過在分詞器中使用enable_thinking=True
參數來激活推理模式,該參數會打開一個以<think>
標籤開頭的推理塊,但不會關閉它。
messages = [
{"role": "user", "content": "Which one is bigger, 3.12 vs 3.9?"}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
enable_thinking=True,
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.6,
top_p=0.95
)
print(tokenizer.decode(output[0]))
⚠️ 重要提示
推理模式下的模型生成會受到採樣參數的敏感影響,請參考使用指南以獲得更好的質量。
智能工具調用
EXAONE 4.0模型可以作為智能代理使用,具備工具調用能力。你可以向模型提供工具模式以實現有效的工具調用。
import random
def roll_dice(max_num: int):
return random.randint(1, max_num)
tools = [
{
"type": "function",
"function": {
"name": "roll_dice",
"description": "Roll a dice with the number 1 to N. User can select the number N.",
"parameters": {
"type": "object",
"required": ["max_num"],
"properties": {
"max_num": {
"type": "int",
"description": "Max number of the dice"
}
}
}
}
}
]
messages = [
{"role": "user", "content": "Roll D6 dice twice!"}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
tools=tools,
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=1024,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
📚 詳細文檔
模型生成細節
此模型使用llama.cpp在提交版本bf9087f5
時生成。
超越IMatrix的量化
我一直在嘗試一種新的量化方法,該方法有選擇地提高關鍵層的精度,超越了默認IMatrix配置所提供的精度。
在我的測試中,標準IMatrix量化在較低比特深度下表現不佳,尤其是在專家混合(MoE)模型中。為了解決這個問題,我在llama.cpp
中使用--tensor-type
選項手動將重要層的精度提升。你可以在以下鏈接查看實現代碼:
👉 使用llama.cpp進行層精度提升
雖然這會增加模型文件的大小,但它顯著提高了給定量化級別的精度。
選擇合適的GGUF模型格式
點擊此處獲取選擇合適GGUF模型格式的信息。
模型配置
屬性 |
詳情 |
模型類型 |
EXAONE-4.0-32B |
參數數量(不包括嵌入層) |
309.5億 |
層數 |
64 |
注意力頭數量 |
GQA,40個頭和8個KV頭 |
詞彙表大小 |
102,400 |
上下文長度 |
131,072個標記 |
🔧 技術細節
在EXAONE 4.0架構中,與之前的EXAONE模型相比,我們進行了以下新的架構更改:
- 混合注意力:對於32B模型,我們採用混合注意力方案,將*局部注意力(滑動窗口注意力)與全局注意力(全注意力)*按3:1的比例結合。為了更好地理解全局上下文,我們在全局注意力中不使用RoPE(旋轉位置嵌入)。
- QK重排序歸一化:我們從傳統的Pre-LN方案中重新調整了LayerNorm的位置,直接將其應用於注意力和MLP輸出,並在Q和K投影后添加RMS歸一化。儘管這會消耗更多的計算資源,但有助於在下游任務中產生更好的性能。
更多詳細信息,請參考我們的技術報告、HuggingFace論文、博客和GitHub。
📊 性能表現
以下表格展示了每個模型在推理和非推理模式下的評估結果。評估細節可在技術報告中找到。
32B推理模式
|
EXAONE 4.0 32B |
Phi 4 reasoning - plus |
Magistral Small - 2506 |
Qwen 3 32B |
Qwen 3 235B |
DeepSeek R1 - 0528 |
模型大小 |
320億 |
147億 |
236億 |
328億 |
2350億 |
6710億 |
混合推理 |
✅ |
|
|
✅ |
✅ |
|
世界知識 |
|
|
|
|
|
|
MMLU - Redux |
92.3 |
90.8 |
86.8 |
90.9 |
92.7 |
93.4 |
MMLU - Pro |
81.8 |
76.0 |
73.4 |
80.0 |
83.0 |
85.0 |
GPQA - Diamond |
75.4 |
68.9 |
68.2 |
68.4 |
71.1 |
81.0 |
數學/編碼 |
|
|
|
|
|
|
AIME 2025 |
85.3 |
78.0 |
62.8 |
72.9 |
81.5 |
87.5 |
HMMT Feb 2025 |
72.9 |
53.6 |
43.5 |
50.4 |
62.5 |
79.4 |
LiveCodeBench v5 |
72.6 |
51.7 |
55.8 |
65.7 |
70.7 |
75.2 |
LiveCodeBench v6 |
66.7 |
47.1 |
47.4 |
60.1 |
58.9 |
70.3 |
指令跟隨 |
|
|
|
|
|
|
IFEval |
83.7 |
84.9 |
37.9 |
85.0 |
83.4 |
80.8 |
Multi - IF (EN) |
73.5 |
56.1 |
27.4 |
73.4 |
73.4 |
72.0 |
智能工具調用 |
|
|
|
|
|
|
BFCL - v3 |
63.9 |
N/A |
40.4 |
70.3 |
70.8 |
64.7 |
Tau - bench (Airline) |
51.5 |
N/A |
38.5 |
34.5 |
37.5 |
53.5 |
Tau - bench (Retail) |
62.8 |
N/A |
10.2 |
55.2 |
58.3 |
63.9 |
多語言能力 |
|
|
|
|
|
|
KMMLU - Pro |
67.7 |
55.8 |
51.5 |
61.4 |
68.1 |
71.7 |
KMMLU - Redux |
72.7 |
62.7 |
54.6 |
67.5 |
74.5 |
77.0 |
KSM |
87.6 |
79.8 |
71.9 |
82.8 |
86.2 |
86.7 |
MMMLU (ES) |
85.6 |
84.3 |
68.9 |
82.8 |
86.7 |
88.2 |
MATH500 (ES) |
95.8 |
94.2 |
83.5 |
94.3 |
95.1 |
96.0 |
32B非推理模式
|
EXAONE 4.0 32B |
Phi 4 |
Mistral - Small - 2506 |
Gemma 3 27B |
Qwen3 32B |
Qwen3 235B |
Llama - 4 - Maverick |
DeepSeek V3 - 0324 |
模型大小 |
320億 |
147億 |
240億 |
274億 |
328億 |
2350億 |
4020億 |
6710億 |
混合推理 |
✅ |
|
|
|
✅ |
✅ |
|
|
世界知識 |
|
|
|
|
|
|
|
|
MMLU - Redux |
89.8 |
88.3 |
85.9 |
85.0 |
85.7 |
89.2 |
92.3 |
92.3 |
MMLU - Pro |
77.6 |
70.4 |
69.1 |
67.5 |
74.4 |
77.4 |
80.5 |
81.2 |
GPQA - Diamond |
63.7 |
56.1 |
46.1 |
42.4 |
54.6 |
62.9 |
69.8 |
68.4 |
數學/編碼 |
|
|
|
|
|
|
|
|
AIME 2025 |
35.9 |
17.8 |
30.2 |
23.8 |
20.2 |
24.7 |
18.0 |
50.0 |
HMMT Feb 2025 |
21.8 |
4.0 |
16.9 |
10.3 |
9.8 |
11.9 |
7.3 |
29.2 |
LiveCodeBench v5 |
43.3 |
24.6 |
25.8 |
27.5 |
31.3 |
35.3 |
43.4 |
46.7 |
LiveCodeBench v6 |
43.1 |
27.4 |
26.9 |
29.7 |
28.0 |
31.4 |
32.7 |
44.0 |
指令跟隨 |
|
|
|
|
|
|
|
|
IFEval |
84.8 |
63.0 |
77.8 |
82.6 |
83.2 |
83.2 |
85.4 |
81.2 |
Multi - IF (EN) |
71.6 |
47.7 |
63.2 |
72.1 |
71.9 |
72.5 |
77.9 |
68.3 |
長上下文處理 |
|
|
|
|
|
|
|
|
HELMET |
58.3 |
N/A |
61.9 |
58.3 |
54.5 |
63.3 |
13.7 |
N/A |
RULER |
88.2 |
N/A |
|
|
|
|
|
|
📄 許可證
本項目採用其他許可證,許可證名稱為exaone,具體許可證信息請參考LICENSE。