EXAONE 4.0开源AI模型 - 免费部署，支持多语言，提升智能应用性能

首页

EXAONE 4.0 32B GGUF

由 LGAI-EXAONE 开发

EXAONE 4.0 模型集成了非推理模式和推理模式，兼具 EXAONE 3.5 的出色可用性与 EXAONE Deep 的高级推理能力。支持英、韩、西三种语言，为智能应用提供更强大的支持。

大型语言模型

Transformers

支持多种语言开源协议:其他 #混合推理模式 #多语言智能体 #长上下文处理

下载量 305

发布时间 : 7/11/2025

模型简介

EXAONE 4.0 是一个多功能大语言模型，结合了非推理和推理能力，支持智能体工具使用和多语言处理，适用于多种智能应用场景。

模型特点

混合推理能力

同时具备非推理模式和推理模式，兼顾通用性和高级推理能力

多语言支持

支持英语、韩语和西班牙语三种语言处理

智能体工具使用

支持智能体工具调用和交互能力

混合注意力机制

采用局部注意力与全局注意力3:1比例结合的创新架构

QK重排序归一化

在Transformer块中使用后层归一化方案，提升下游任务性能

模型能力

文本生成

复杂推理

多语言处理

工具调用

指令遵循

长上下文处理

使用案例

智能助手

多语言客服

支持英语、韩语和西班牙语的客户服务对话

在KMMLU-Pro测试中获得67.7分

教育

数学问题解答

解决高级数学问题

在AIME 2025测试中获得85.3分

商业智能

商业决策支持

分析商业数据并提供决策建议

在Tau-bench (Retail)测试中获得62.8分

🚀 EXAONE-4.0-32B-GGUF

EXAONE 4.0 模型集成了非推理模式和推理模式，兼具 EXAONE 3.5 的出色可用性与 EXAONE Deep 的高级推理能力。该模型系列有 32B 和 1.2B 两种规格，支持英、韩、西三种语言，为智能应用提供更强大的支持。

🎉 许可证更新！我们很高兴宣布更灵活的许可条款 🤗
✈️ 立即在 FriendliAI 上试用

🚀 快速开始

llama.cpp

你可以按照以下步骤，使用 llama.cpp 在本地运行 EXAONE 模型：

通过克隆我们的 PR 并从源代码构建，安装最新版本的 llama.cpp。请参考官方文档从源代码构建。

git clone --single-branch -b add-exaone4 https://github.com/lgai-exaone/llama.cpp.git

下载 GGUF 格式的 EXAONE 4.0 模型权重。

huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF-GGUF \
    --include "EXAONE-4.0-32B-GGUF-Q4_K_M.gguf" \
    --local-dir .

当你使用拆分为多个文件的 GGUF 模型时，在运行模型之前，应将它们合并为一个文件。 1. 首先，下载 GGUF 模型权重。

huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF \
    --include "EXAONE-4.0-32B-BF16*.gguf" \
    --local-dir .

2. 将拆分的文件合并为一个文件。

llama-gguf-split --merge \
    ./EXAONE-4.0-32B-BF16-00001-of-00002.gguf \
    ./EXAONE-4.0-32B-BF16.gguf

使用 `llama-cli` 进行生成

3. 使用 transformers 应用聊天模板。 > 此过程是为了避免当前 `llama.cpp` 中 EXAONE 建模代码出现问题。这是我们 [PR](https://github.com/ggml-org/llama.cpp/pull/14630) 正在进行的工作。问题解决后，我们将进行更新。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-4.0-32B-GGUF" tokenizer = AutoTokenizer.from_pretrained(model_name)

messages = [ {"role": "user", "content": "Let's work together on local system!"} ] input_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, )

print(repr(input_text)) with open("inputs.txt", "w") as f: f.write(input_text)

4. 使用贪心解码生成结果。
```bash
llama-cli -m EXAONE-4.0-32B-GGUF-Q4_K_M.gguf \
    -fa -ngl 64 \
    --temp 0.0 --top-k 1 \
    -f inputs.txt -no-cnv

使用 `llama-server` 搭建 OpenAI 兼容服务器

3. 使用 EXAONE 4.0 Jinja 模板运行 llama-server。 ```bash llama-server -m EXAONE-4.0-32B-Q4_K_M.gguf \ -c 131072 -fa -ngl 64 \ --temp 0.6 --top-p 0.95 \ --jinja --chat-template-format chat_template_simple.jinja \ --host 0.0.0.0 --port 8820 \ -a EXAONE-4.0-32B-Q4_K_M ``` 4. 使用 OpenAI 聊天完成功能测试 GGUF 模型。 > `llama.cpp` 的实现可能不会针对某些使用场景进行优化，包括推理模式或智能体使用。 ```bash curl -X POST http://localhost:8820/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "EXAONE-4.0-32B-Q4_K_M", "messages": [ {"role": "user", "content": "Let'\''s work together on server!"} ], "max_tokens": 1024, "temperature": 0.6, "top_p": 0.95 }' ```

✨ 主要特性

我们推出的 EXAONE 4.0 集成了 非推理模式 和 推理模式，既具备 EXAONE 3.5 的出色可用性，又拥有 EXAONE Deep 的高级推理能力。为了开启智能体 AI 时代，EXAONE 4.0 融入了智能体工具使用等重要特性，并且其多语言能力得到扩展，除英语和韩语外，还支持西班牙语。

EXAONE 4.0 模型系列包含两种规格：为高性能优化的中型 32B 模型，以及专为设备端应用设计的小型 1.2B 模型。

在 EXAONE 4.0 架构中，与之前的 EXAONE 模型相比，我们进行了以下新的架构更改：

混合注意力机制：对于 32B 模型，我们采用混合注意力方案，将 局部注意力（滑动窗口注意力） 与 全局注意力（全注意力） 以 3:1 的比例结合。为了更好地理解全局上下文，我们在全局注意力中不使用 RoPE（旋转位置嵌入）。
QK 重排序归一化：我们在 Transformer 块中采用后层归一化（Post-LN）方案，而非前层归一化（Pre-LN），并在 Q 和 K 投影之后添加 RMS 归一化。尽管这会消耗更多计算资源，但有助于在下游任务中获得更好的性能。

更多详细信息，请参考我们的技术报告、博客和 GitHub。

模型配置

属性	详情
模型类型	EXAONE-4.0-32B-GGUF
训练数据	未提及
参数数量（不含嵌入层）	[[num_params_wo_embeddings]]
层数	[[num_layers]]
注意力头数量	[[num_heads]]
词表大小	102,400
上下文长度	[[context_length]] 个标记
量化情况	[[quantization]]

📚 详细文档

32B 推理模式

	EXAONE 4.0 32B	Phi 4 reasoning-plus	Magistral Small-2506	Qwen 3 32B	Qwen 3 235B	DeepSeek R1-0528
模型大小	32.0B	14.7B	23.6B	32.8B	235B	671B
混合推理能力	✅			✅	✅
世界知识 - MMLU-Redux	92.3	90.8	86.8	90.9	92.7	93.4
世界知识 - MMLU-Pro	81.8	76.0	73.4	80.0	83.0	85.0
世界知识 - GPQA-Diamond	75.4	68.9	68.2	68.4	71.1	81.0
数学/编程 - AIME 2025	85.3	78.0	62.8	72.9	81.5	87.5
数学/编程 - HMMT Feb 2025	72.9	53.6	43.5	50.4	62.5	79.4
数学/编程 - LiveCodeBench v5	72.6	51.7	55.8	65.7	70.7	75.2
数学/编程 - LiveCodeBench v6	66.7	47.1	47.4	60.1	58.9	70.3
指令遵循 - IFEval	83.7	84.9	37.9	85.0	83.4	80.8
指令遵循 - Multi-IF (EN)	73.5	56.1	27.4	73.4	73.4	72.0
智能体工具使用 - BFCL-v3	63.9	N/A	40.4	70.3	70.8	64.7
智能体工具使用 - Tau-bench (Airline)	51.5	N/A	38.5	34.5	37.5	53.5
智能体工具使用 - Tau-bench (Retail)	62.8	N/A	10.2	55.2	58.3	63.9
多语言能力 - KMMLU-Pro	67.7	55.8	51.5	61.4	68.1	71.7
多语言能力 - KMMLU-Redux	72.7	62.7	54.6	67.5	74.5	77.0
多语言能力 - KSM	87.6	79.8	71.9	82.8	86.2	86.7
多语言能力 - MMMLU (ES)	85.6	84.3	68.9	82.8	86.7	88.2
多语言能力 - MATH500 (ES)	95.8	94.2	83.5	94.3	95.1	96.0

32B 非推理模式

	EXAONE 4.0 32B	Phi 4	Mistral-Small-2506	Gemma 3 27B	Qwen3 32B	Qwen3 235B	Llama-4-Maverick	DeepSeek V3-0324
模型大小	32.0B	14.7B	24.0B	27.4B	32.8B	235B	402B	671B
混合推理能力	✅				✅	✅
世界知识 - MMLU-Redux	89.8	88.3	85.9	85.0	85.7	89.2	92.3	92.3
世界知识 - MMLU-Pro	77.6	70.4	69.1	67.5	74.4	77.4	80.5	81.2
世界知识 - GPQA-Diamond	63.7	56.1	46.1	42.4	54.6	62.9	69.8	68.4
数学/编程 - AIME 2025	35.9	17.8	30.2	23.8	20.2	24.7	18.0	50.0
数学/编程 - HMMT Feb 2025	21.8	4.0	16.9	10.3	9.8	11.9	7.3	29.2
数学/编程 - LiveCodeBench v5	43.3	24.6	25.8	27.5	31.3	35.3	43.4	46.7
数学/编程 - LiveCodeBench v6	43.1	27.4	26.9	29.7	28.0	31.4	32.7	44.0
指令遵循 - IFEval	84.8	63.0	77.8	82.6	83.2	83.2	85.4	81.2
指令遵循 - Multi-IF (EN)	71.6	47.7	63.2	72.1	71.9	72.5	77.9	68.3
长上下文处理 - HELMET	58.3	N/A	61.9	58.3	54.5	63.3	13.7	N/A
长上下文处理 - RULER	88.2	N/A	71.8	66.0	85.6	90.6	2.9	N/A
长上下文处理 - LongBench v1	48.1	N/A	51.5	51.5	44.2	45.3	34.7	N/A
智能体工具使用 - BFCL-v3	65.2	N/A	57.7	N/A	63.0	68.0	52.9	63.8
智能体工具使用 - Tau-Bench (Airline)	25.5	N/A	36.1	N/A	16.0	27.0	38.0	40.5
智能体工具使用 - Tau-Bench (Retail)	55.9	N/A	35.5	N/A	47.6	56.5	6.5	68.5
多语言能力 - KMMLU-Pro	60.0	44.8	51.0	50.7	58.3	64.4	68.8	67.3
多语言能力 - KMMLU-Redux	64.8	50.1	53.6	53.3	64.4	71.7	76.9	72.2
多语言能力 - KSM	59.8	29.1	35.5	36.1

🔧 技术细节

在 EXAONE 4.0 架构中，与之前的 EXAONE 模型相比，我们进行了以下新的架构更改：

混合注意力机制：对于 32B 模型，我们采用混合注意力方案，将 局部注意力（滑动窗口注意力） 与 全局注意力（全注意力） 以 3:1 的比例结合。为了更好地理解全局上下文，我们在全局注意力中不使用 RoPE（旋转位置嵌入）。
QK 重排序归一化：我们在 Transformer 块中采用后层归一化（Post-LN）方案，而非前层归一化（Pre-LN），并在 Q 和 K 投影之后添加 RMS 归一化。尽管这会消耗更多计算资源，但有助于在下游任务中获得更好的性能。

更多详细信息，请参考我们的技术报告、博客和 GitHub。