EXAONE-4.0-1.2B-GGUF開源多語言大模型 - 支持英韓西語，兼具雙模式

首頁

EXAONE 4.0 1.2B GGUF

由Mungert開發

EXAONE-4.0-1.2B 是一個多語言大語言模型，整合了非推理模式和推理模式，支持英語、韓語和西班牙語。

大型語言模型

Transformers

支持多種語言開源協議:其他 #混合推理模式 #多語言支持 #智能工具調用

下載量 417

發布時間 : 7/20/2025

模型概述

EXAONE-4.0-1.2B 是一個多功能大語言模型，兼具非推理模式和推理模式，支持多語言任務和智能工具調用。

模型特點

混合模式

集成非推理模式和推理模式，兼顧可用性和高級推理能力。

多語言支持

支持英語、韓語和西班牙語，擴展了多語言能力。

智能工具調用

可作為智能代理，調用工具解決問題。

混合注意力機制

採用局部注意力與全局注意力結合的方案，提升模型性能。

模型能力

文本生成

多語言處理

複雜推理

工具調用

指令遵循

使用案例

通用問答

多語言問答

支持英語、韓語和西班牙語的問答任務。

複雜推理

數學問題求解

解決複雜的數學和編程問題。

在AIME 2025和HMMT Feb 2025等基準測試中表現優異。

工具調用

智能代理

調用外部工具完成任務，如擲骰子。

🚀 EXAONE-4.0-1.2B GGUF模型

EXAONE-4.0-1.2B GGUF模型整合了非推理模式和推理模式，兼具EXAONE 3.5的出色可用性和EXAONE Deep的高級推理能力。其多語言能力得到擴展，除英語和韓語外，還支持西班牙語。該模型有32B和1.2B兩種尺寸，可滿足不同場景需求。

🚀 快速開始

你需要安裝從原始版本分叉而來的transformers庫，該庫可在我們的PR中獲取。一旦此PR合併併發布，我們將更新此部分內容。

你可以通過以下命令安裝支持EXAONE 4.0的最新版本transformers：

pip install git+https://github.com/lgai-exaone/transformers@add-exaone4

基礎用法

對於一般使用場景，你可以使用以下示例代碼調用EXAONE 4.0模型：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-4.0-1.2B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# choose your prompt
prompt = "Explain how wonderful you are"
prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐"

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

高級用法

推理模式

EXAONE 4.0模型具備處理複雜問題的推理能力。你可以通過在tokenizer中使用enable_thinking=True參數來激活推理模式，該參數會打開一個以<think>標籤開頭的推理塊，但不會關閉它。

messages = [
    {"role": "user", "content": "Which one is bigger, 3.12 vs 3.9?"}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
    enable_thinking=True,
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=128,
    do_sample=True,
    temperature=0.6,
    top_p=0.95
)
print(tokenizer.decode(output[0]))

⚠️ 重要提示

推理模式下的模型生成結果可能會受到採樣參數的敏感影響，因此為了獲得更好的質量，請參考使用指南。

智能工具調用

EXAONE 4.0模型可以作為智能代理，利用其工具調用能力。你可以為模型提供工具模式，以實現有效的工具調用。

import random

def roll_dice(max_num: int):
    return random.randint(1, max_num)

tools = [
    {
        "type": "function",
        "function": {
            "name": "roll_dice",
            "description": "Roll a dice with the number 1 to N. User can select the number N.",
            "parameters": {
                "type": "object",
                "required": ["max_num"],
                "properties": {
                    "max_num": {
                        "type": "int",
                        "description": "Max number of the dice"
                    }
                }
            }
        }
    }
]

messages = [
    {"role": "user", "content": "Roll D6 dice twice!"}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
    tools=tools,
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=1024,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
)
print(tokenizer.decode(output[0]))

✨ 主要特性

混合模式：集成非推理模式和推理模式，兼顧可用性和推理能力。
多語言支持：支持英語、韓語和西班牙語。
智能工具調用：可作為智能代理，調用工具解決問題。

📦 安裝指南

TensorRT-LLM部署

TensorRT-LLM在最新提交中正式支持EXAONE 4.0模型。在其發佈之前，你需要克隆TensorRT-LLM倉庫並從源代碼進行構建。

git clone https://github.com/NVIDIA/TensorRT-LLM.git

克隆倉庫後，你需要構建源代碼以進行安裝。請參考官方文檔來構建TensorRT-LLM環境。

你可以按照以下步驟運行TensorRT-LLM服務器：

編寫額外的配置YAML文件

# extra_llm_api_config.yaml
kv_cache_config:
  enable_block_reuse: false

使用配置運行服務器

trtllm-serve serve [MODEL_PATH] --backend pytorch --extra_llm_api_options extra_llm_api_config.yaml

更多詳細信息，請參考TensorRT-LLM中EXAONE的文檔。

⚠️ 重要提示

目前包括vllm和sglang在內的其他推理引擎尚未正式支持EXAONE 4.0。我們將在這些庫更新後儘快進行更新。

📚 詳細文檔

模型生成細節

該模型使用llama.cpp在提交版本bf9087f5下生成。

點擊此處獲取選擇合適GGUF模型格式的信息。

模型配置

屬性	詳情
模型參數數量（不包括嵌入層）	10.7億
層數	30
注意力頭數量	GQA，32頭和8個鍵值頭
詞表大小	102,400
上下文長度	65,536個標記

模型架構變更

在EXAONE 4.0架構中，與之前的EXAONE模型相比，我們進行了以下新的架構更改：

混合注意力機制：對於32B模型，我們採用混合注意力方案，將局部注意力（滑動窗口注意力）與全局注意力（全注意力）以3:1的比例結合。為了更好地理解全局上下文，我們在全局注意力中不使用旋轉位置嵌入（RoPE）。
QK重排序歸一化：我們通過直接對注意力和多層感知機（MLP）的輸出應用層歸一化（LayerNorm），重新調整了傳統預層歸一化（Pre-LN）方案中LayerNorm的位置，並在Q和K投影之後添加了均方根歸一化（RMS）。儘管這會消耗更多的計算資源，但有助於在下游任務中取得更好的性能。

更多詳細信息，請參考我們的技術報告、HuggingFace論文、博客和GitHub。

🔧 技術細節

以下表格展示了每個模型在推理和非推理模式下的評估結果。評估細節可在技術報告中找到。

✅ 表示模型具有混合推理能力，可根據需求選擇推理/非推理模式。
為了評估韓語的實用和專業知識，我們採用了KMMLU-Redux和KMMLU-Pro兩個基準測試。這兩個數據集均已公開發布！

32B推理模式評估結果

	EXAONE 4.0 32B	Phi 4 reasoning-plus	Magistral Small-2506	Qwen 3 32B	Qwen 3 235B	DeepSeek R1-0528
模型大小	320億	147億	236億	328億	2350億	6710億
混合推理能力	✅			✅	✅
世界知識 - MMLU-Redux	92.3	90.8	86.8	90.9	92.7	93.4
世界知識 - MMLU-Pro	81.8	76.0	73.4	80.0	83.0	85.0
世界知識 - GPQA-Diamond	75.4	68.9	68.2	68.4	71.1	81.0
數學/編程 - AIME 2025	85.3	78.0	62.8	72.9	81.5	87.5
數學/編程 - HMMT Feb 2025	72.9	53.6	43.5	50.4	62.5	79.4
數學/編程 - LiveCodeBench v5	72.6	51.7	55.8	65.7	70.7	75.2
數學/編程 - LiveCodeBench v6	66.7	47.1	47.4	60.1	58.9	70.3
指令遵循 - IFEval	83.7	84.9	37.9	85.0	83.4	80.8
指令遵循 - Multi-IF (EN)	73.5	56.1	27.4	73.4	73.4	72.0
智能工具調用 - BFCL-v3	63.9	N/A	40.4	70.3	70.8	64.7
智能工具調用 - Tau-bench (Airline)	51.5	N/A	38.5	34.5	37.5	53.5
智能工具調用 - Tau-bench (Retail)	62.8	N/A	10.2	55.2	58.3	63.9
多語言 - KMMLU-Pro	67.7	55.8	51.5	61.4	68.1	71.7
多語言 - KMMLU-Redux	72.7	62.7	54.6	67.5	74.5	77.0
多語言 - KSM	87.6	79.8	71.9	82.8	86.2	86.7
多語言 - MMMLU (ES)	85.6	84.3	68.9	82.8	86.7	88.2
多語言 - MATH500 (ES)	95.8	94.2	83.5	94.3	95.1	96.0

32B非推理模式評估結果

	EXAONE 4.0 32B	Phi 4	Mistral-Small-2506	Gemma 3 27B	Qwen3 32B	Qwen3 235B	Llama-4-Maverick	DeepSeek V3-0324
模型大小	320億	147億	240億	274億	328億	2350億	4020億	6710億
混合推理能力	✅				✅	✅
世界知識 - MMLU-Redux	89.8	88.3	85.9	85.0	85.7	89.2	92.3	92.3
世界知識 - MMLU-Pro	77.6	70.4	69.1	67.5	74.4	77.4	80.5	81.2
世界知識 - GPQA-Diamond	63.7	56.1	46.1	42.4	54.6	62.9	69.8	68.4
數學/編程 - AIME 2025	35.9	17.8	30.2	23.8	20.2	24.7	18.0	50.0
數學/編程 - HMMT Feb 2025	21.8	4.0	16.9	10.3	9.8	11.9	7.3	29.2
數學/編程 - LiveCodeBench v5	43.3	24.6	25.8	27.5	31.3	35.3	43.4	46.7
數學/編程 - LiveCodeBench v6	43.1	27.4	26.9	29.7	28.0	31.4	32.7	44.0
指令遵循 - IFEval	84.8	63.0	77.8	82.6	83.2	83.2	85.4	81.2
指令遵循 - Multi-IF (EN)	71.6	47.7	63.2	72.1	71.9	72.5	77.9	68.3
長上下文 - HELMET	58.3	N/A	61.9	58.3	54.5	63.3	13.7	N/A
長上下文 - RULER	88.2	N/A	71.8	66.0	85.6	90.6	2.9	N/A
長上下文 - LongBench v1	48.1	N/A	51.5	51.5	44.2	45.3	34.7	N/A
智能工具調用 - BFCL-v3	65.2	N/A	57.7	N/A