模型概述
模型特點
模型能力
使用案例
🚀 EXAONE-4.0-32B-GGUF
EXAONE 4.0 模型集成了非推理模式和推理模式,兼具 EXAONE 3.5 的出色可用性與 EXAONE Deep 的高級推理能力。該模型系列有 32B 和 1.2B 兩種規格,支持英、韓、西三種語言,為智能應用提供更強大的支持。
🎉 許可證更新!我們很高興宣佈更靈活的許可條款 🤗
✈️ 立即在 FriendliAI 上試用
🚀 快速開始
llama.cpp
你可以按照以下步驟,使用 llama.cpp 在本地運行 EXAONE 模型:
- 通過克隆我們的 PR 並從源代碼構建,安裝最新版本的 llama.cpp。請參考官方文檔 從源代碼構建。
git clone --single-branch -b add-exaone4 https://github.com/lgai-exaone/llama.cpp.git
- 下載 GGUF 格式的 EXAONE 4.0 模型權重。
huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF-GGUF \
--include "EXAONE-4.0-32B-GGUF-Q4_K_M.gguf" \
--local-dir .
當你使用拆分為多個文件的 GGUF 模型時,在運行模型之前,應將它們合併為一個文件。 1. 首先,下載 GGUF 模型權重。
huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF \
--include "EXAONE-4.0-32B-BF16*.gguf" \
--local-dir .
2. 將拆分的文件合併為一個文件。
llama-gguf-split --merge \
./EXAONE-4.0-32B-BF16-00001-of-00002.gguf \
./EXAONE-4.0-32B-BF16.gguf
使用 `llama-cli` 進行生成
3. 使用 transformers 應用聊天模板。 > 此過程是為了避免當前 `llama.cpp` 中 EXAONE 建模代碼出現問題。這是我們 [PR](https://github.com/ggml-org/llama.cpp/pull/14630) 正在進行的工作。問題解決後,我們將進行更新。 ```python from transformers import AutoModelForCausalLM, AutoTokenizermodel_name = "LGAI-EXAONE/EXAONE-4.0-32B-GGUF" tokenizer = AutoTokenizer.from_pretrained(model_name)
messages = [ {"role": "user", "content": "Let's work together on local system!"} ] input_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, )
print(repr(input_text)) with open("inputs.txt", "w") as f: f.write(input_text)
4. 使用貪心解碼生成結果。
```bash
llama-cli -m EXAONE-4.0-32B-GGUF-Q4_K_M.gguf \
-fa -ngl 64 \
--temp 0.0 --top-k 1 \
-f inputs.txt -no-cnv
使用 `llama-server` 搭建 OpenAI 兼容服務器
3. 使用 EXAONE 4.0 Jinja 模板運行 llama-server。 ```bash llama-server -m EXAONE-4.0-32B-Q4_K_M.gguf \ -c 131072 -fa -ngl 64 \ --temp 0.6 --top-p 0.95 \ --jinja --chat-template-format chat_template_simple.jinja \ --host 0.0.0.0 --port 8820 \ -a EXAONE-4.0-32B-Q4_K_M ``` 4. 使用 OpenAI 聊天完成功能測試 GGUF 模型。 > `llama.cpp` 的實現可能不會針對某些使用場景進行優化,包括推理模式或智能體使用。 ```bash curl -X POST http://localhost:8820/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "EXAONE-4.0-32B-Q4_K_M", "messages": [ {"role": "user", "content": "Let'\''s work together on server!"} ], "max_tokens": 1024, "temperature": 0.6, "top_p": 0.95 }' ```✨ 主要特性
我們推出的 EXAONE 4.0 集成了 非推理模式 和 推理模式,既具備 EXAONE 3.5 的出色可用性,又擁有 EXAONE Deep 的高級推理能力。為了開啟智能體 AI 時代,EXAONE 4.0 融入了智能體工具使用等重要特性,並且其多語言能力得到擴展,除英語和韓語外,還支持西班牙語。
EXAONE 4.0 模型系列包含兩種規格:為高性能優化的中型 32B 模型,以及專為設備端應用設計的小型 1.2B 模型。
在 EXAONE 4.0 架構中,與之前的 EXAONE 模型相比,我們進行了以下新的架構更改:
- 混合注意力機制:對於 32B 模型,我們採用混合注意力方案,將 局部注意力(滑動窗口注意力) 與 全局注意力(全注意力) 以 3:1 的比例結合。為了更好地理解全局上下文,我們在全局注意力中不使用 RoPE(旋轉位置嵌入)。
- QK 重排序歸一化:我們在 Transformer 塊中採用後層歸一化(Post-LN)方案,而非前層歸一化(Pre-LN),並在 Q 和 K 投影之後添加 RMS 歸一化。儘管這會消耗更多計算資源,但有助於在下游任務中獲得更好的性能。
更多詳細信息,請參考我們的 技術報告、博客 和 GitHub。
模型配置
屬性 | 詳情 |
---|---|
模型類型 | EXAONE-4.0-32B-GGUF |
訓練數據 | 未提及 |
參數數量(不含嵌入層) | [[num_params_wo_embeddings]] |
層數 | [[num_layers]] |
注意力頭數量 | [[num_heads]] |
詞表大小 | 102,400 |
上下文長度 | [[context_length]] 個標記 |
量化情況 | [[quantization]] |
📚 詳細文檔
32B 推理模式
EXAONE 4.0 32B | Phi 4 reasoning-plus | Magistral Small-2506 | Qwen 3 32B | Qwen 3 235B | DeepSeek R1-0528 | |
---|---|---|---|---|---|---|
模型大小 | 32.0B | 14.7B | 23.6B | 32.8B | 235B | 671B |
混合推理能力 | ✅ | ✅ | ✅ | |||
世界知識 - MMLU-Redux | 92.3 | 90.8 | 86.8 | 90.9 | 92.7 | 93.4 |
世界知識 - MMLU-Pro | 81.8 | 76.0 | 73.4 | 80.0 | 83.0 | 85.0 |
世界知識 - GPQA-Diamond | 75.4 | 68.9 | 68.2 | 68.4 | 71.1 | 81.0 |
數學/編程 - AIME 2025 | 85.3 | 78.0 | 62.8 | 72.9 | 81.5 | 87.5 |
數學/編程 - HMMT Feb 2025 | 72.9 | 53.6 | 43.5 | 50.4 | 62.5 | 79.4 |
數學/編程 - LiveCodeBench v5 | 72.6 | 51.7 | 55.8 | 65.7 | 70.7 | 75.2 |
數學/編程 - LiveCodeBench v6 | 66.7 | 47.1 | 47.4 | 60.1 | 58.9 | 70.3 |
指令遵循 - IFEval | 83.7 | 84.9 | 37.9 | 85.0 | 83.4 | 80.8 |
指令遵循 - Multi-IF (EN) | 73.5 | 56.1 | 27.4 | 73.4 | 73.4 | 72.0 |
智能體工具使用 - BFCL-v3 | 63.9 | N/A | 40.4 | 70.3 | 70.8 | 64.7 |
智能體工具使用 - Tau-bench (Airline) | 51.5 | N/A | 38.5 | 34.5 | 37.5 | 53.5 |
智能體工具使用 - Tau-bench (Retail) | 62.8 | N/A | 10.2 | 55.2 | 58.3 | 63.9 |
多語言能力 - KMMLU-Pro | 67.7 | 55.8 | 51.5 | 61.4 | 68.1 | 71.7 |
多語言能力 - KMMLU-Redux | 72.7 | 62.7 | 54.6 | 67.5 | 74.5 | 77.0 |
多語言能力 - KSM | 87.6 | 79.8 | 71.9 | 82.8 | 86.2 | 86.7 |
多語言能力 - MMMLU (ES) | 85.6 | 84.3 | 68.9 | 82.8 | 86.7 | 88.2 |
多語言能力 - MATH500 (ES) | 95.8 | 94.2 | 83.5 | 94.3 | 95.1 | 96.0 |
32B 非推理模式
EXAONE 4.0 32B | Phi 4 | Mistral-Small-2506 | Gemma 3 27B | Qwen3 32B | Qwen3 235B | Llama-4-Maverick | DeepSeek V3-0324 | |
---|---|---|---|---|---|---|---|---|
模型大小 | 32.0B | 14.7B | 24.0B | 27.4B | 32.8B | 235B | 402B | 671B |
混合推理能力 | ✅ | ✅ | ✅ | |||||
世界知識 - MMLU-Redux | 89.8 | 88.3 | 85.9 | 85.0 | 85.7 | 89.2 | 92.3 | 92.3 |
世界知識 - MMLU-Pro | 77.6 | 70.4 | 69.1 | 67.5 | 74.4 | 77.4 | 80.5 | 81.2 |
世界知識 - GPQA-Diamond | 63.7 | 56.1 | 46.1 | 42.4 | 54.6 | 62.9 | 69.8 | 68.4 |
數學/編程 - AIME 2025 | 35.9 | 17.8 | 30.2 | 23.8 | 20.2 | 24.7 | 18.0 | 50.0 |
數學/編程 - HMMT Feb 2025 | 21.8 | 4.0 | 16.9 | 10.3 | 9.8 | 11.9 | 7.3 | 29.2 |
數學/編程 - LiveCodeBench v5 | 43.3 | 24.6 | 25.8 | 27.5 | 31.3 | 35.3 | 43.4 | 46.7 |
數學/編程 - LiveCodeBench v6 | 43.1 | 27.4 | 26.9 | 29.7 | 28.0 | 31.4 | 32.7 | 44.0 |
指令遵循 - IFEval | 84.8 | 63.0 | 77.8 | 82.6 | 83.2 | 83.2 | 85.4 | 81.2 |
指令遵循 - Multi-IF (EN) | 71.6 | 47.7 | 63.2 | 72.1 | 71.9 | 72.5 | 77.9 | 68.3 |
長上下文處理 - HELMET | 58.3 | N/A | 61.9 | 58.3 | 54.5 | 63.3 | 13.7 | N/A |
長上下文處理 - RULER | 88.2 | N/A | 71.8 | 66.0 | 85.6 | 90.6 | 2.9 | N/A |
長上下文處理 - LongBench v1 | 48.1 | N/A | 51.5 | 51.5 | 44.2 | 45.3 | 34.7 | N/A |
智能體工具使用 - BFCL-v3 | 65.2 | N/A | 57.7 | N/A | 63.0 | 68.0 | 52.9 | 63.8 |
智能體工具使用 - Tau-Bench (Airline) | 25.5 | N/A | 36.1 | N/A | 16.0 | 27.0 | 38.0 | 40.5 |
智能體工具使用 - Tau-Bench (Retail) | 55.9 | N/A | 35.5 | N/A | 47.6 | 56.5 | 6.5 | 68.5 |
多語言能力 - KMMLU-Pro | 60.0 | 44.8 | 51.0 | 50.7 | 58.3 | 64.4 | 68.8 | 67.3 |
多語言能力 - KMMLU-Redux | 64.8 | 50.1 | 53.6 | 53.3 | 64.4 | 71.7 | 76.9 | 72.2 |
多語言能力 - KSM | 59.8 | 29.1 | 35.5 | 36.1 |
🔧 技術細節
在 EXAONE 4.0 架構中,與之前的 EXAONE 模型相比,我們進行了以下新的架構更改:
- 混合注意力機制:對於 32B 模型,我們採用混合注意力方案,將 局部注意力(滑動窗口注意力) 與 全局注意力(全注意力) 以 3:1 的比例結合。為了更好地理解全局上下文,我們在全局注意力中不使用 RoPE(旋轉位置嵌入)。
- QK 重排序歸一化:我們在 Transformer 塊中採用後層歸一化(Post-LN)方案,而非前層歸一化(Pre-LN),並在 Q 和 K 投影之後添加 RMS 歸一化。儘管這會消耗更多計算資源,但有助於在下游任務中獲得更好的性能。
更多詳細信息,請參考我們的 技術報告、博客 和 GitHub。
📄 許可證
- 許可證類型:其他
- 許可證名稱:exaone
- 許可證鏈接:LICENSE



