🚀 EXAONE-4.0-32B-GGUF
EXAONE 4.0は、非推論モードと推論モードを統合し、EXAONE 3.5の優れた使いやすさとEXAONE Deepの高度な推論能力を兼ね備えています。エージェント型AIの時代に備え、エージェント型ツールの使用などの重要な機能を組み込み、多言語対応能力も拡張され、英語と韓国語に加えてスペイン語もサポートしています。
EXAONE 4.0モデルシリーズは、高性能に最適化された中規模の32Bモデルと、デバイス上でのアプリケーション向けに設計された小規模の1.2Bモデルの2種類のサイズで構成されています。
🎉 ライセンスが更新されました!より柔軟なライセンス条項を発表できることを嬉しく思います 🤗
✈️ [FriendliAI](https://friendli.ai/suite/~/serverless-endpoints/LGAI-EXAONE/EXAONE-4.0-32B/overview)で試してみてください
🚀 クイックスタート
llama.cpp
以下の手順に従って、llama.cppを使用してEXAONEモデルをローカルで実行できます。
- llama.cppの最新バージョンをインストールします。PRをクローンしてソースからビルドします。ソースからのビルドに関する公式ドキュメントを参照してください。
git clone --single-branch -b add-exaone4 https://github.com/lgai-exaone/llama.cpp.git
- GGUF形式のEXAONE 4.0モデルの重みをダウンロードします。
huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF-GGUF \
--include "EXAONE-4.0-32B-GGUF-Q4_K_M.gguf" \
--local-dir .
GGUFモデルが複数のファイルに分割されている場合は、モデルを実行する前にそれらを1つのファイルにマージする必要があります。
- まず、GGUFモデルの重みをダウンロードします。
huggingface-cli download LGAI-EXAONE/EXAONE-4.0-32B-GGUF \
--include "EXAONE-4.0-32B-BF16*.gguf" \
--local-dir .
- 分割されたファイルを1つのファイルにマージします。
llama-gguf-split --merge \
./EXAONE-4.0-32B-BF16-00001-of-00002.gguf \
./EXAONE-4.0-32B-BF16.gguf
`llama-cli`による生成
- transformersを使用してチャットテンプレートを適用します。
このプロセスは、llama.cpp
の現在のEXAONEモデリングコードに関する問題を回避するために必要です。これは私たちのPRで進行中の作業です。これらの問題が解決されたら、更新します。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "LGAI-EXAONE/EXAONE-4.0-32B-GGUF"
tokenizer = AutoTokenizer.from_pretrained(model_name)
messages = [
{"role": "user", "content": "Let's work together on local system!"}
]
input_text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
print(repr(input_text))
with open("inputs.txt", "w") as f:
f.write(input_text)
- 貪欲復号化で結果を生成します。
llama-cli -m EXAONE-4.0-32B-GGUF-Q4_K_M.gguf \
-fa -ngl 64 \
--temp 0.0 --top-k 1 \
-f inputs.txt -no-cnv
`llama-server`によるOpenAI互換サーバー
- EXAONE 4.0のJinjaテンプレートでllama-serverを実行します。
llama-server -m EXAONE-4.0-32B-Q4_K_M.gguf \
-c 131072 -fa -ngl 64 \
--temp 0.6 --top-p 0.95 \
--jinja --chat-template-format chat_template_simple.jinja \
--host 0.0.0.0 --port 8820 \
-a EXAONE-4.0-32B-Q4_K_M
- OpenAIチャットコンプリーションを使用してGGUFモデルをテストします。
llama.cpp
の実装は、推論モードやエージェント型の使用などの一部の使用法に対して最適化されていない場合があります。
curl -X POST http://localhost:8820/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "EXAONE-4.0-32B-Q4_K_M",
"messages": [
{"role": "user", "content": "Let'\''s work together on server!"}
],
"max_tokens": 1024,
"temperature": 0.6,
"top_p": 0.95
}'
✨ 主な機能
アーキテクチャの変更
EXAONE 4.0アーキテクチャでは、以前のEXAONEモデルと比較して以下の新しいアーキテクチャ変更を適用しています。
- ハイブリッドアテンション:32Bモデルには、ローカルアテンション(スライディングウィンドウアテンション) とグローバルアテンション(フルアテンション) を3:1の比率で組み合わせたハイブリッドアテンション方式を採用しています。グローバルアテンションにはRoPE(Rotary Positional Embedding)を使用せず、より良いグローバルコンテキスト理解を実現しています。
- QK-Reorder-Norm:トランスフォーマーブロックにはPre-LNではなくPost-LN(LayerNorm)方式を採用し、QとKの射影の直後にRMS正規化を追加しています。これにより、より多くの計算を消費するものの、下流のタスクでより良いパフォーマンスを得ることができます。
詳細については、技術レポート、ブログ、およびGitHubを参照してください。
モデル構成
属性 |
详情 |
モデルタイプ |
EXAONE 4.0 32B |
パラメータ数(埋め込みを除く) |
[[num_params_wo_embeddings]] |
レイヤー数 |
[[num_layers]] |
アテンションヘッド数 |
[[num_heads]] |
語彙サイズ |
102,400 |
コンテキスト長 |
[[context_length]]トークン |
量子化 |
[[quantization]] |
📚 ドキュメント
性能評価
以下の表は、各モデルの推論モードと非推論モードの評価結果を示しています。評価の詳細は技術レポートに記載されています。
- ✅は、モデルが目的に応じて推論/非推論を選択することで評価されたハイブリッド推論能力を持っていることを示します。
- 韓国語の実用的および専門的な知識を評価するために、KMMLU-ReduxとKMMLU-Proの両方のベンチマークを採用しています。両方のデータセットは公開されています!
- 評価結果は、量子化されていない元のモデルに基づいています。
32B推論モード
|
EXAONE 4.0 32B |
Phi 4 reasoning-plus |
Magistral Small-2506 |
Qwen 3 32B |
Qwen 3 235B |
DeepSeek R1-0528 |
モデルサイズ |
32.0B |
14.7B |
23.6B |
32.8B |
235B |
671B |
ハイブリッド推論 |
✅ |
|
|
✅ |
✅ |
|
世界知識 |
|
|
|
|
|
|
MMLU-Redux |
92.3 |
90.8 |
86.8 |
90.9 |
92.7 |
93.4 |
MMLU-Pro |
81.8 |
76.0 |
73.4 |
80.0 |
83.0 |
85.0 |
GPQA-Diamond |
75.4 |
68.9 |
68.2 |
68.4 |
71.1 |
81.0 |
数学/コーディング |
|
|
|
|
|
|
AIME 2025 |
85.3 |
78.0 |
62.8 |
72.9 |
81.5 |
87.5 |
HMMT Feb 2025 |
72.9 |
53.6 |
43.5 |
50.4 |
62.5 |
79.4 |
LiveCodeBench v5 |
72.6 |
51.7 |
55.8 |
65.7 |
70.7 |
75.2 |
LiveCodeBench v6 |
66.7 |
47.1 |
47.4 |
60.1 |
58.9 |
70.3 |
命令追従 |
|
|
|
|
|
|
IFEval |
83.7 |
84.9 |
37.9 |
85.0 |
83.4 |
80.8 |
Multi-IF (EN) |
73.5 |
56.1 |
27.4 |
73.4 |
73.4 |
72.0 |
エージェント型ツールの使用 |
|
|
|
|
|
|
BFCL-v3 |
63.9 |
N/A |
40.4 |
70.3 |
70.8 |
64.7 |
Tau-bench (Airline) |
51.5 |
N/A |
38.5 |
34.5 |
37.5 |
53.5 |
Tau-bench (Retail) |
62.8 |
N/A |
10.2 |
55.2 |
58.3 |
63.9 |
多言語対応 |
|
|
|
|
|
|
KMMLU-Pro |
67.7 |
55.8 |
51.5 |
61.4 |
68.1 |
71.7 |
KMMLU-Redux |
72.7 |
62.7 |
54.6 |
67.5 |
74.5 |
77.0 |
KSM |
87.6 |
79.8 |
71.9 |
82.8 |
86.2 |
86.7 |
MMMLU (ES) |
85.6 |
84.3 |
68.9 |
82.8 |
86.7 |
88.2 |
MATH500 (ES) |
95.8 |
94.2 |
83.5 |
94.3 |
95.1 |
96.0 |
32B非推論モード
|
EXAONE 4.0 32B |
Phi 4 |
Mistral-Small-2506 |
Gemma 3 27B |
Qwen3 32B |
Qwen3 235B |
Llama-4-Maverick |
DeepSeek V3-0324 |
モデルサイズ |
32.0B |
14.7B |
24.0B |
27.4B |
32.8B |
235B |
402B |
671B |
ハイブリッド推論 |
✅ |
|
|
|
✅ |
✅ |
|
|
世界知識 |
|
|
|
|
|
|
|
|
MMLU-Redux |
89.8 |
88.3 |
85.9 |
85.0 |
85.7 |
89.2 |
92.3 |
92.3 |
MMLU-Pro |
77.6 |
70.4 |
69.1 |
67.5 |
74.4 |
77.4 |
80.5 |
81.2 |
GPQA-Diamond |
63.7 |
56.1 |
46.1 |
42.4 |
54.6 |
62.9 |
69.8 |
68.4 |
数学/コーディング |
|
|
|
|
|
|
|
|
AIME 2025 |
35.9 |
17.8 |
30.2 |
23.8 |
20.2 |
24.7 |
18.0 |
50.0 |
HMMT Feb 2025 |
21.8 |
4.0 |
16.9 |
10.3 |
9.8 |
11.9 |
7.3 |
29.2 |
LiveCodeBench v5 |
43.3 |
24.6 |
25.8 |
27.5 |
31.3 |
35.3 |
43.4 |
46.7 |
LiveCodeBench v6 |
43.1 |
27.4 |
26.9 |
29.7 |
28.0 |
31.4 |
32.7 |
44.0 |
命令追従 |
|
|
|
|
|
|
|
|
IFEval |
84.8 |
63.0 |
77.8 |
82.6 |
83.2 |
83.2 |
85.4 |
81.2 |
Multi-IF (EN) |
71.6 |
47.7 |
63.2 |
72.1 |
71.9 |
72.5 |
77.9 |
68.3 |
長文コンテキスト |
|
|
|
|
|
|
|
|
HELMET |
58.3 |
N/A |
61.9 |
58.3 |
54.5 |
63.3 |
13.7 |
N/A |
RULER |
88.2 |
N/A |
71.8 |
66.0 |
85.6 |
90.6 |
2.9 |
N/A |
LongBench v1 |
48.1 |
N/A |
51.5 |
51.5 |
44.2 |
45.3 |
34.7 |
N/A |
エージェント型ツールの使用 |
|
|
|
|
|
|
|
|
BFCL-v3 |
65.2 |
N/A |
57.7 |
N/A |
63.0 |
68.0 |
52.9 |
63.8 |
Tau-Bench (Airline) |
25.5 |
N/A |
36.1 |
N/A |
16.0 |
27.0 |
38.0 |
40.5 |
Tau-Bench (Retail) |
55.9 |
N/A |
35.5 |
N/A |
47.6 |
56.5 |
6.5 |
68.5 |
多言語対応 |
|
|
|
|
|
|
|
|
KMMLU-Pro |
60.0 |
44.8 |
51.0 |
50.7 |
58.3 |
64.4 |
68.8 |
67.3 |
KMMLU-Redux |
64.8 |
50.1 |
53.6 |
53.3 |
64.4 |
71.7 |
76.9 |
72.2 |
KSM |
59.8 |
29.1 |
35.5 |
36.1 |
|
|
|
|
📄 ライセンス
このプロジェクトは、exaoneライセンスの下で公開されています。