EXAONE-4.0-1.2B-GGUF开源多语言大模型 - 支持英韩西语，兼具双模式

首页

EXAONE 4.0 1.2B GGUF

由 Mungert 开发

EXAONE-4.0-1.2B 是一个多语言大语言模型，整合了非推理模式和推理模式，支持英语、韩语和西班牙语。

大型语言模型

Transformers

支持多种语言开源协议:其他 #混合推理模式 #多语言支持 #智能工具调用

下载量 417

发布时间 : 7/20/2025

模型简介

EXAONE-4.0-1.2B 是一个多功能大语言模型，兼具非推理模式和推理模式，支持多语言任务和智能工具调用。

模型特点

混合模式

集成非推理模式和推理模式，兼顾可用性和高级推理能力。

多语言支持

支持英语、韩语和西班牙语，扩展了多语言能力。

智能工具调用

可作为智能代理，调用工具解决问题。

混合注意力机制

采用局部注意力与全局注意力结合的方案，提升模型性能。

模型能力

文本生成

多语言处理

复杂推理

工具调用

指令遵循

使用案例

通用问答

多语言问答

支持英语、韩语和西班牙语的问答任务。

复杂推理

数学问题求解

解决复杂的数学和编程问题。

在AIME 2025和HMMT Feb 2025等基准测试中表现优异。

工具调用

智能代理

调用外部工具完成任务，如掷骰子。

🚀 EXAONE-4.0-1.2B GGUF模型

EXAONE-4.0-1.2B GGUF模型整合了非推理模式和推理模式，兼具EXAONE 3.5的出色可用性和EXAONE Deep的高级推理能力。其多语言能力得到扩展，除英语和韩语外，还支持西班牙语。该模型有32B和1.2B两种尺寸，可满足不同场景需求。

🚀 快速开始

你需要安装从原始版本分叉而来的transformers库，该库可在我们的PR中获取。一旦此PR合并并发布，我们将更新此部分内容。

你可以通过以下命令安装支持EXAONE 4.0的最新版本transformers：

pip install git+https://github.com/lgai-exaone/transformers@add-exaone4

基础用法

对于一般使用场景，你可以使用以下示例代码调用EXAONE 4.0模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-4.0-1.2B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# choose your prompt
prompt = "Explain how wonderful you are"
prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐"

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

高级用法

推理模式

EXAONE 4.0模型具备处理复杂问题的推理能力。你可以通过在tokenizer中使用enable_thinking=True参数来激活推理模式，该参数会打开一个以<think>标签开头的推理块，但不会关闭它。

messages = [
    {"role": "user", "content": "Which one is bigger, 3.12 vs 3.9?"}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
    enable_thinking=True,
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=128,
    do_sample=True,
    temperature=0.6,
    top_p=0.95
)
print(tokenizer.decode(output[0]))

⚠️ 重要提示

推理模式下的模型生成结果可能会受到采样参数的敏感影响，因此为了获得更好的质量，请参考使用指南。

智能工具调用

EXAONE 4.0模型可以作为智能代理，利用其工具调用能力。你可以为模型提供工具模式，以实现有效的工具调用。

import random

def roll_dice(max_num: int):
    return random.randint(1, max_num)

tools = [
    {
        "type": "function",
        "function": {
            "name": "roll_dice",
            "description": "Roll a dice with the number 1 to N. User can select the number N.",
            "parameters": {
                "type": "object",
                "required": ["max_num"],
                "properties": {
                    "max_num": {
                        "type": "int",
                        "description": "Max number of the dice"
                    }
                }
            }
        }
    }
]

messages = [
    {"role": "user", "content": "Roll D6 dice twice!"}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
    tools=tools,
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=1024,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
)
print(tokenizer.decode(output[0]))

✨ 主要特性

混合模式：集成非推理模式和推理模式，兼顾可用性和推理能力。
多语言支持：支持英语、韩语和西班牙语。
智能工具调用：可作为智能代理，调用工具解决问题。

📦 安装指南

TensorRT-LLM部署

TensorRT-LLM在最新提交中正式支持EXAONE 4.0模型。在其发布之前，你需要克隆TensorRT-LLM仓库并从源代码进行构建。

git clone https://github.com/NVIDIA/TensorRT-LLM.git

克隆仓库后，你需要构建源代码以进行安装。请参考官方文档来构建TensorRT-LLM环境。

你可以按照以下步骤运行TensorRT-LLM服务器：

编写额外的配置YAML文件

# extra_llm_api_config.yaml
kv_cache_config:
  enable_block_reuse: false

使用配置运行服务器

trtllm-serve serve [MODEL_PATH] --backend pytorch --extra_llm_api_options extra_llm_api_config.yaml

更多详细信息，请参考TensorRT-LLM中EXAONE的文档。

⚠️ 重要提示

目前包括vllm和sglang在内的其他推理引擎尚未正式支持EXAONE 4.0。我们将在这些库更新后尽快进行更新。

📚 详细文档

模型生成细节

该模型使用llama.cpp在提交版本bf9087f5下生成。

点击此处获取选择合适GGUF模型格式的信息。

模型配置

属性	详情
模型参数数量（不包括嵌入层）	10.7亿
层数	30
注意力头数量	GQA，32头和8个键值头
词表大小	102,400
上下文长度	65,536个标记

模型架构变更

在EXAONE 4.0架构中，与之前的EXAONE模型相比，我们进行了以下新的架构更改：

混合注意力机制：对于32B模型，我们采用混合注意力方案，将局部注意力（滑动窗口注意力）与全局注意力（全注意力）以3:1的比例结合。为了更好地理解全局上下文，我们在全局注意力中不使用旋转位置嵌入（RoPE）。
QK重排序归一化：我们通过直接对注意力和多层感知机（MLP）的输出应用层归一化（LayerNorm），重新调整了传统预层归一化（Pre-LN）方案中LayerNorm的位置，并在Q和K投影之后添加了均方根归一化（RMS）。尽管这会消耗更多的计算资源，但有助于在下游任务中取得更好的性能。

更多详细信息，请参考我们的技术报告、HuggingFace论文、博客和GitHub。

🔧 技术细节

以下表格展示了每个模型在推理和非推理模式下的评估结果。评估细节可在技术报告中找到。

✅ 表示模型具有混合推理能力，可根据需求选择推理/非推理模式。
为了评估韩语的实用和专业知识，我们采用了KMMLU-Redux和KMMLU-Pro两个基准测试。这两个数据集均已公开发布！

32B推理模式评估结果

	EXAONE 4.0 32B	Phi 4 reasoning-plus	Magistral Small-2506	Qwen 3 32B	Qwen 3 235B	DeepSeek R1-0528
模型大小	320亿	147亿	236亿	328亿	2350亿	6710亿
混合推理能力	✅			✅	✅
世界知识 - MMLU-Redux	92.3	90.8	86.8	90.9	92.7	93.4
世界知识 - MMLU-Pro	81.8	76.0	73.4	80.0	83.0	85.0
世界知识 - GPQA-Diamond	75.4	68.9	68.2	68.4	71.1	81.0
数学/编程 - AIME 2025	85.3	78.0	62.8	72.9	81.5	87.5
数学/编程 - HMMT Feb 2025	72.9	53.6	43.5	50.4	62.5	79.4
数学/编程 - LiveCodeBench v5	72.6	51.7	55.8	65.7	70.7	75.2
数学/编程 - LiveCodeBench v6	66.7	47.1	47.4	60.1	58.9	70.3
指令遵循 - IFEval	83.7	84.9	37.9	85.0	83.4	80.8
指令遵循 - Multi-IF (EN)	73.5	56.1	27.4	73.4	73.4	72.0
智能工具调用 - BFCL-v3	63.9	N/A	40.4	70.3	70.8	64.7
智能工具调用 - Tau-bench (Airline)	51.5	N/A	38.5	34.5	37.5	53.5
智能工具调用 - Tau-bench (Retail)	62.8	N/A	10.2	55.2	58.3	63.9
多语言 - KMMLU-Pro	67.7	55.8	51.5	61.4	68.1	71.7
多语言 - KMMLU-Redux	72.7	62.7	54.6	67.5	74.5	77.0
多语言 - KSM	87.6	79.8	71.9	82.8	86.2	86.7
多语言 - MMMLU (ES)	85.6	84.3	68.9	82.8	86.7	88.2
多语言 - MATH500 (ES)	95.8	94.2	83.5	94.3	95.1	96.0

32B非推理模式评估结果

	EXAONE 4.0 32B	Phi 4	Mistral-Small-2506	Gemma 3 27B	Qwen3 32B	Qwen3 235B	Llama-4-Maverick	DeepSeek V3-0324
模型大小	320亿	147亿	240亿	274亿	328亿	2350亿	4020亿	6710亿
混合推理能力	✅				✅	✅
世界知识 - MMLU-Redux	89.8	88.3	85.9	85.0	85.7	89.2	92.3	92.3
世界知识 - MMLU-Pro	77.6	70.4	69.1	67.5	74.4	77.4	80.5	81.2
世界知识 - GPQA-Diamond	63.7	56.1	46.1	42.4	54.6	62.9	69.8	68.4
数学/编程 - AIME 2025	35.9	17.8	30.2	23.8	20.2	24.7	18.0	50.0
数学/编程 - HMMT Feb 2025	21.8	4.0	16.9	10.3	9.8	11.9	7.3	29.2
数学/编程 - LiveCodeBench v5	43.3	24.6	25.8	27.5	31.3	35.3	43.4	46.7
数学/编程 - LiveCodeBench v6	43.1	27.4	26.9	29.7	28.0	31.4	32.7	44.0
指令遵循 - IFEval	84.8	63.0	77.8	82.6	83.2	83.2	85.4	81.2
指令遵循 - Multi-IF (EN)	71.6	47.7	63.2	72.1	71.9	72.5	77.9	68.3
长上下文 - HELMET	58.3	N/A	61.9	58.3	54.5	63.3	13.7	N/A
长上下文 - RULER	88.2	N/A	71.8	66.0	85.6	90.6	2.9	N/A
长上下文 - LongBench v1	48.1	N/A	51.5	51.5	44.2	45.3	34.7	N/A
智能工具调用 - BFCL-v3	65.2	N/A	57.7	N/A