EXAONE 4.0開源AI模型 - 免費部署，支持多語言，提升智能應用性能

首頁

EXAONE 4.0 32B GGUF

由LGAI-EXAONE開發

EXAONE 4.0 模型集成了非推理模式和推理模式，兼具 EXAONE 3.5 的出色可用性與 EXAONE Deep 的高級推理能力。支持英、韓、西三種語言，為智能應用提供更強大的支持。

大型語言模型

Transformers

支持多種語言開源協議:其他 #混合推理模式 #多語言智能體 #長上下文處理

下載量 305

發布時間 : 7/11/2025

模型概述

EXAONE 4.0 是一個多功能大語言模型，結合了非推理和推理能力，支持智能體工具使用和多語言處理，適用於多種智能應用場景。

模型特點

混合推理能力

同時具備非推理模式和推理模式，兼顧通用性和高級推理能力

多語言支持

支持英語、韓語和西班牙語三種語言處理

智能體工具使用

支持智能體工具調用和交互能力

混合注意力機制

採用局部注意力與全局注意力3:1比例結合的創新架構

QK重排序歸一化

在Transformer塊中使用後層歸一化方案，提升下游任務性能

模型能力

文本生成

複雜推理

多語言處理

工具調用

指令遵循

長上下文處理

使用案例

智能助手

多語言客服

支持英語、韓語和西班牙語的客戶服務對話

在KMMLU-Pro測試中獲得67.7分

教育

數學問題解答

解決高級數學問題

在AIME 2025測試中獲得85.3分

商業智能

商業決策支持

分析商業數據並提供決策建議

在Tau-bench (Retail)測試中獲得62.8分

🚀 EXAONE-4.0-32B-GGUF

EXAONE 4.0 模型集成了非推理模式和推理模式，兼具 EXAONE 3.5 的出色可用性與 EXAONE Deep 的高級推理能力。該模型系列有 32B 和 1.2B 兩種規格，支持英、韓、西三種語言，為智能應用提供更強大的支持。

🎉 許可證更新！我們很高興宣佈更靈活的許可條款 🤗
✈️ 立即在 FriendliAI 上試用

🚀 快速開始

llama.cpp

你可以按照以下步驟，使用 llama.cpp 在本地運行 EXAONE 模型：

通過克隆我們的 PR 並從源代碼構建，安裝最新版本的 llama.cpp。請參考官方文檔從源代碼構建。

git clone --single-branch -b add-exaone4 https://github.com/lgai-exaone/llama.cpp.git

下載 GGUF 格式的 EXAONE 4.0 模型權重。

huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF-GGUF \
    --include "EXAONE-4.0-32B-GGUF-Q4_K_M.gguf" \
    --local-dir .

當你使用拆分為多個文件的 GGUF 模型時，在運行模型之前，應將它們合併為一個文件。 1. 首先，下載 GGUF 模型權重。

huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF \
    --include "EXAONE-4.0-32B-BF16*.gguf" \
    --local-dir .

2. 將拆分的文件合併為一個文件。

llama-gguf-split --merge \
    ./EXAONE-4.0-32B-BF16-00001-of-00002.gguf \
    ./EXAONE-4.0-32B-BF16.gguf

使用 `llama-cli` 進行生成

3. 使用 transformers 應用聊天模板。 > 此過程是為了避免當前 `llama.cpp` 中 EXAONE 建模代碼出現問題。這是我們 [PR](https://github.com/ggml-org/llama.cpp/pull/14630) 正在進行的工作。問題解決後，我們將進行更新。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-4.0-32B-GGUF" tokenizer = AutoTokenizer.from_pretrained(model_name)

messages = [ {"role": "user", "content": "Let's work together on local system!"} ] input_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, )

print(repr(input_text)) with open("inputs.txt", "w") as f: f.write(input_text)

4. 使用貪心解碼生成結果。
```bash
llama-cli -m EXAONE-4.0-32B-GGUF-Q4_K_M.gguf \
    -fa -ngl 64 \
    --temp 0.0 --top-k 1 \
    -f inputs.txt -no-cnv

使用 `llama-server` 搭建 OpenAI 兼容服務器

3. 使用 EXAONE 4.0 Jinja 模板運行 llama-server。 ```bash llama-server -m EXAONE-4.0-32B-Q4_K_M.gguf \ -c 131072 -fa -ngl 64 \ --temp 0.6 --top-p 0.95 \ --jinja --chat-template-format chat_template_simple.jinja \ --host 0.0.0.0 --port 8820 \ -a EXAONE-4.0-32B-Q4_K_M ``` 4. 使用 OpenAI 聊天完成功能測試 GGUF 模型。 > `llama.cpp` 的實現可能不會針對某些使用場景進行優化，包括推理模式或智能體使用。 ```bash curl -X POST http://localhost:8820/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "EXAONE-4.0-32B-Q4_K_M", "messages": [ {"role": "user", "content": "Let'\''s work together on server!"} ], "max_tokens": 1024, "temperature": 0.6, "top_p": 0.95 }' ```

✨ 主要特性

我們推出的 EXAONE 4.0 集成了 非推理模式 和 推理模式，既具備 EXAONE 3.5 的出色可用性，又擁有 EXAONE Deep 的高級推理能力。為了開啟智能體 AI 時代，EXAONE 4.0 融入了智能體工具使用等重要特性，並且其多語言能力得到擴展，除英語和韓語外，還支持西班牙語。

EXAONE 4.0 模型系列包含兩種規格：為高性能優化的中型 32B 模型，以及專為設備端應用設計的小型 1.2B 模型。

在 EXAONE 4.0 架構中，與之前的 EXAONE 模型相比，我們進行了以下新的架構更改：

混合注意力機制：對於 32B 模型，我們採用混合注意力方案，將 局部注意力（滑動窗口注意力） 與 全局注意力（全注意力） 以 3:1 的比例結合。為了更好地理解全局上下文，我們在全局注意力中不使用 RoPE（旋轉位置嵌入）。
QK 重排序歸一化：我們在 Transformer 塊中採用後層歸一化（Post-LN）方案，而非前層歸一化（Pre-LN），並在 Q 和 K 投影之後添加 RMS 歸一化。儘管這會消耗更多計算資源，但有助於在下游任務中獲得更好的性能。

更多詳細信息，請參考我們的技術報告、博客和 GitHub。

模型配置

屬性	詳情
模型類型	EXAONE-4.0-32B-GGUF
訓練數據	未提及
參數數量（不含嵌入層）	[[num_params_wo_embeddings]]
層數	[[num_layers]]
注意力頭數量	[[num_heads]]
詞表大小	102,400
上下文長度	[[context_length]] 個標記
量化情況	[[quantization]]

📚 詳細文檔

32B 推理模式

	EXAONE 4.0 32B	Phi 4 reasoning-plus	Magistral Small-2506	Qwen 3 32B	Qwen 3 235B	DeepSeek R1-0528
模型大小	32.0B	14.7B	23.6B	32.8B	235B	671B
混合推理能力	✅			✅	✅
世界知識 - MMLU-Redux	92.3	90.8	86.8	90.9	92.7	93.4
世界知識 - MMLU-Pro	81.8	76.0	73.4	80.0	83.0	85.0
世界知識 - GPQA-Diamond	75.4	68.9	68.2	68.4	71.1	81.0
數學/編程 - AIME 2025	85.3	78.0	62.8	72.9	81.5	87.5
數學/編程 - HMMT Feb 2025	72.9	53.6	43.5	50.4	62.5	79.4
數學/編程 - LiveCodeBench v5	72.6	51.7	55.8	65.7	70.7	75.2
數學/編程 - LiveCodeBench v6	66.7	47.1	47.4	60.1	58.9	70.3
指令遵循 - IFEval	83.7	84.9	37.9	85.0	83.4	80.8
指令遵循 - Multi-IF (EN)	73.5	56.1	27.4	73.4	73.4	72.0
智能體工具使用 - BFCL-v3	63.9	N/A	40.4	70.3	70.8	64.7
智能體工具使用 - Tau-bench (Airline)	51.5	N/A	38.5	34.5	37.5	53.5
智能體工具使用 - Tau-bench (Retail)	62.8	N/A	10.2	55.2	58.3	63.9
多語言能力 - KMMLU-Pro	67.7	55.8	51.5	61.4	68.1	71.7
多語言能力 - KMMLU-Redux	72.7	62.7	54.6	67.5	74.5	77.0
多語言能力 - KSM	87.6	79.8	71.9	82.8	86.2	86.7
多語言能力 - MMMLU (ES)	85.6	84.3	68.9	82.8	86.7	88.2
多語言能力 - MATH500 (ES)	95.8	94.2	83.5	94.3	95.1	96.0

32B 非推理模式

	EXAONE 4.0 32B	Phi 4	Mistral-Small-2506	Gemma 3 27B	Qwen3 32B	Qwen3 235B	Llama-4-Maverick	DeepSeek V3-0324
模型大小	32.0B	14.7B	24.0B	27.4B	32.8B	235B	402B	671B
混合推理能力	✅				✅	✅
世界知識 - MMLU-Redux	89.8	88.3	85.9	85.0	85.7	89.2	92.3	92.3
世界知識 - MMLU-Pro	77.6	70.4	69.1	67.5	74.4	77.4	80.5	81.2
世界知識 - GPQA-Diamond	63.7	56.1	46.1	42.4	54.6	62.9	69.8	68.4
數學/編程 - AIME 2025	35.9	17.8	30.2	23.8	20.2	24.7	18.0	50.0
數學/編程 - HMMT Feb 2025	21.8	4.0	16.9	10.3	9.8	11.9	7.3	29.2
數學/編程 - LiveCodeBench v5	43.3	24.6	25.8	27.5	31.3	35.3	43.4	46.7
數學/編程 - LiveCodeBench v6	43.1	27.4	26.9	29.7	28.0	31.4	32.7	44.0
指令遵循 - IFEval	84.8	63.0	77.8	82.6	83.2	83.2	85.4	81.2
指令遵循 - Multi-IF (EN)	71.6	47.7	63.2	72.1	71.9	72.5	77.9	68.3
長上下文處理 - HELMET	58.3	N/A	61.9	58.3	54.5	63.3	13.7	N/A
長上下文處理 - RULER	88.2	N/A	71.8	66.0	85.6	90.6	2.9	N/A
長上下文處理 - LongBench v1	48.1	N/A	51.5	51.5	44.2	45.3	34.7	N/A
智能體工具使用 - BFCL-v3	65.2	N/A	57.7	N/A	63.0	68.0	52.9	63.8
智能體工具使用 - Tau-Bench (Airline)	25.5	N/A	36.1	N/A	16.0	27.0	38.0	40.5
智能體工具使用 - Tau-Bench (Retail)	55.9	N/A	35.5	N/A	47.6	56.5	6.5	68.5
多語言能力 - KMMLU-Pro	60.0	44.8	51.0	50.7	58.3	64.4	68.8	67.3
多語言能力 - KMMLU-Redux	64.8	50.1	53.6	53.3	64.4	71.7	76.9	72.2
多語言能力 - KSM	59.8	29.1	35.5	36.1

🔧 技術細節

在 EXAONE 4.0 架構中，與之前的 EXAONE 模型相比，我們進行了以下新的架構更改：

混合注意力機制：對於 32B 模型，我們採用混合注意力方案，將 局部注意力（滑動窗口注意力） 與 全局注意力（全注意力） 以 3:1 的比例結合。為了更好地理解全局上下文，我們在全局注意力中不使用 RoPE（旋轉位置嵌入）。
QK 重排序歸一化：我們在 Transformer 塊中採用後層歸一化（Post-LN）方案，而非前層歸一化（Pre-LN），並在 Q 和 K 投影之後添加 RMS 歸一化。儘管這會消耗更多計算資源，但有助於在下游任務中獲得更好的性能。

更多詳細信息，請參考我們的技術報告、博客和 GitHub。