🚀 EXAONE-4.0-1.2B GGUFモデル
EXAONE-4.0-1.2B GGUFモデルは、高度なテキスト生成能力を備えたモデルです。Non-reasoning modeとReasoning modeを統合し、多言語対応しています。
🚀 クイックスタート
あなたは、元のものからフォークされたtransformersライブラリをインストールする必要があります。これは、私たちのPRで利用可能です。このPRがマージされてリリースされたら、このセクションを更新します。
以下のコマンドを実行することで、EXAONE 4.0をサポートする最新バージョンのtransformersをインストールできます。
pip install git+https://github.com/lgai-exaone/transformers@add-exaone4
基本的な使用法
一般的な使用には、以下の例のようにEXAONE 4.0モデルを使用できます。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "LGAI-EXAONE/EXAONE-4.0-1.2B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="bfloat16",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Explain how wonderful you are"
prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐"
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=128,
do_sample=False,
)
print(tokenizer.decode(output[0]))
高度な使用法
EXAONE 4.0モデルは、複雑な問題を処理するための推論能力を備えています。tokenizerでenable_thinking=True
引数を使用することで、推論モードをアクティブにできます。これにより、<think>
タグで始まる推論ブロックが開き、閉じることはありません。
messages = [
{"role": "user", "content": "Which one is bigger, 3.12 vs 3.9?"}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
enable_thinking=True,
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=128,
do_sample=True,
temperature=0.6,
top_p=0.95
)
print(tokenizer.decode(output[0]))
⚠️ 重要提示
推論モードでのモデル生成は、サンプリングパラメータに敏感に影響を受ける可能性があります。より良い品質を得るためには、使用ガイドラインを参照してください。
エージェントツールの使用
EXAONE 4.0モデルは、ツール呼び出し機能を備えたエージェントとして使用できます。効果的なツール呼び出しのために、モデルにツールスキーマを提供できます。
import random
def roll_dice(max_num: int):
return random.randint(1, max_num)
tools = [
{
"type": "function",
"function": {
"name": "roll_dice",
"description": "Roll a dice with the number 1 to N. User can select the number N.",
"parameters": {
"type": "object",
"required": ["max_num"],
"properties": {
"max_num": {
"type": "int",
"description": "Max number of the dice"
}
}
}
}
}
]
messages = [
{"role": "user", "content": "Roll D6 dice twice!"}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
tools=tools,
)
output = model.generate(
input_ids.to(model.device),
max_new_tokens=1024,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
✨ 主な機能
EXAONE 4.0の概要
私たちは、EXAONE 4.0を導入しました。これは、Non-reasoning modeとReasoning modeを統合し、EXAONE 3.5の優れた使いやすさと、EXAONE Deepの高度な推論能力の両方を実現します。エージェント型AIの時代に備えて、EXAONE 4.0はエージェントツールの使用などの重要な機能を組み込んでおり、その多言語機能は英語と韓語に加えてスペイン語もサポートするように拡張されています。
EXAONE 4.0モデルシリーズは、高性能に最適化された中規模の32Bモデルと、デバイス上でのアプリケーション向けに設計された小規模の1.2Bモデルの2つのサイズで構成されています。
新しいアーキテクチャの変更
EXAONE 4.0アーキテクチャでは、以前のEXAONEモデルと比較して、以下のような新しいアーキテクチャの変更を適用しています。
- ハイブリッドアテンション:32Bモデルには、Local attention (スライディングウィンドウアテンション) と Global attention (フルアテンション) を3:1の比率で組み合わせたハイブリッドアテンション方式を採用しています。グローバルコンテキストの理解を向上させるために、グローバルアテンションにはRoPE (Rotary Positional Embedding) を使用していません。
- QK-Reorder-Norm:従来のPre-LN方式からLayerNormの位置を並べ替え、アテンションとMLPの出力に直接LayerNormを適用し、QとKの投影の直後にRMS正規化を追加しています。これにより、より多くの計算を消費するものの、下流のタスクでより良いパフォーマンスを得ることができます。
詳細については、技術レポート、HuggingFace論文、ブログ、およびGitHubを参照してください。
モデル構成
属性 |
详情 |
パラメータ数(埋め込みを除く) |
1.07B |
レイヤー数 |
30 |
アテンションヘッド数 |
GQAで32ヘッドと8-KVヘッド |
語彙サイズ |
102,400 |
コンテキスト長 |
65,536トークン |
📦 インストール
TensorRT-LLM
TensorRT-LLMは最新のコミットで公式にEXAONE 4.0モデルをサポートしています。リリースされる前に、TensorRT-LLMリポジトリをクローンしてソースからビルドする必要があります。
git clone https://github.com/NVIDIA/TensorRT-LLM.git
リポジトリをクローンした後、インストールのためにソースをビルドする必要があります。TensorRT-LLM環境をビルドするガイドについては、公式ドキュメントを参照してください。
以下の手順でTensorRT-LLMサーバーを実行できます。
- 追加の設定YAMLファイルを作成します。
kv_cache_config:
enable_block_reuse: false
- 設定を使用してサーバーを実行します。
trtllm-serve serve [MODEL_PATH] --backend pytorch --extra_llm_api_options extra_llm_api_config.yaml
詳細については、TensorRT-LLMのEXAONEのドキュメントを参照してください。
💡 使用建议
現在、vllm
やsglang
などの他の推論エンジンは公式にEXAONE 4.0をサポートしていません。これらのライブラリが更新され次第、更新します。
📚 ドキュメント
モデル生成の詳細
このモデルは、llama.cppを使用して、コミット bf9087f5
で生成されました。
ここをクリックすると、適切なGGUFモデル形式を選択するための情報を取得できます。
パフォーマンス
以下の表は、各モデルの推論モードと非推論モードでの評価結果を示しています。評価の詳細については、技術レポートを参照してください。
- ✅ は、モデルが目的に応じて推論/非推論を選択して評価されたハイブリッド推論能力を持っていることを示しています。
- 韓国語の実用的および専門的な知識を評価するために、KMMLU-Redux と KMMLU-Pro の両方のベンチマークを採用しています。両方のデータセットは公開されています!
32B推論モード
|
EXAONE 4.0 32B |
Phi 4 reasoning-plus |
Magistral Small-2506 |
Qwen 3 32B |
Qwen 3 235B |
DeepSeek R1-0528 |
モデルサイズ |
32.0B |
14.7B |
23.6B |
32.8B |
235B |
671B |
ハイブリッド推論 |
✅ |
|
|
✅ |
✅ |
|
世界知識 |
|
|
|
|
|
|
MMLU-Redux |
92.3 |
90.8 |
86.8 |
90.9 |
92.7 |
93.4 |
MMLU-Pro |
81.8 |
76.0 |
73.4 |
80.0 |
83.0 |
85.0 |
GPQA-Diamond |
75.4 |
68.9 |
68.2 |
68.4 |
71.1 |
81.0 |
数学/コーディング |
|
|
|
|
|
|
AIME 2025 |
85.3 |
78.0 |
62.8 |
72.9 |
81.5 |
87.5 |
HMMT Feb 2025 |
72.9 |
53.6 |
43.5 |
50.4 |
62.5 |
79.4 |
LiveCodeBench v5 |
72.6 |
51.7 |
55.8 |
65.7 |
70.7 |
75.2 |
LiveCodeBench v6 |
66.7 |
47.1 |
47.4 |
60.1 |
58.9 |
70.3 |
命令追従 |
|
|
|
|
|
|
IFEval |
83.7 |
84.9 |
37.9 |
85.0 |
83.4 |
80.8 |
Multi-IF (EN) |
73.5 |
56.1 |
27.4 |
73.4 |
73.4 |
72.0 |
エージェントツールの使用 |
|
|
|
|
|
|
BFCL-v3 |
63.9 |
N/A |
40.4 |
70.3 |
70.8 |
64.7 |
Tau-bench (Airline) |
51.5 |
N/A |
38.5 |
34.5 |
37.5 |
53.5 |
Tau-bench (Retail) |
62.8 |
N/A |
10.2 |
55.2 |
58.3 |
63.9 |
多言語性 |
|
|
|
|
|
|
KMMLU-Pro |
67.7 |
55.8 |
51.5 |
61.4 |
68.1 |
71.7 |
KMMLU-Redux |
72.7 |
62.7 |
54.6 |
67.5 |
74.5 |
77.0 |
KSM |
87.6 |
79.8 |
71.9 |
82.8 |
86.2 |
86.7 |
MMMLU (ES) |
85.6 |
84.3 |
68.9 |
82.8 |
86.7 |
88.2 |
MATH500 (ES) |
95.8 |
94.2 |
83.5 |
94.3 |
95.1 |
96.0 |
32B非推論モード
|
EXAONE 4.0 32B |
Phi 4 |
Mistral-Small-2506 |
Gemma 3 27B |
Qwen3 32B |
Qwen3 235B |
Llama-4-Maverick |
DeepSeek V3-0324 |
モデルサイズ |
32.0B |
14.7B |
24.0B |
27.4B |
32.8B |
235B |
402B |
671B |
ハイブリッド推論 |
✅ |
|
|
|
✅ |
✅ |
|
|
世界知識 |
|
|
|
|
|
|
|
|
MMLU-Redux |
89.8 |
88.3 |
85.9 |
85.0 |
85.7 |
89.2 |
92.3 |
92.3 |
MMLU-Pro |
77.6 |
70.4 |
69.1 |
67.5 |
74.4 |
77.4 |
80.5 |
81.2 |
GPQA-Diamond |
63.7 |
56.1 |
46.1 |
42.4 |
54.6 |
62.9 |
69.8 |
68.4 |
数学/コーディング |
|
|
|
|
|
|
|
|
AIME 2025 |
35.9 |
17.8 |
30.2 |
23.8 |
20.2 |
24.7 |
18.0 |
50.0 |
HMMT Feb 2025 |
21.8 |
4.0 |
16.9 |
10.3 |
9.8 |
11.9 |
7.3 |
29.2 |
LiveCodeBench v5 |
43.3 |
24.6 |
25.8 |
27.5 |
31.3 |
35.3 |
43.4 |
46.7 |
LiveCodeBench v6 |
43.1 |
27.4 |
26.9 |
29.7 |
28.0 |
31.4 |
32.7 |
44.0 |
命令追従 |
|
|
|
|
|
|
|
|
IFEval |
84.8 |
63.0 |
77.8 |
82.6 |
83.2 |
83.2 |
85.4 |
81.2 |
Multi-IF (EN) |
71.6 |
47.7 |
63.2 |
72.1 |
71.9 |
72.5 |
77.9 |
68.3 |
長文コンテキスト |
|
|
|
|
|
|
|
|
HELMET |
58.3 |
N/A |
61.9 |
58.3 |
54.5 |
63.3 |
13.7 |
N/A |
RULER |
88.2 |
N/A |
71.8 |
66.0 |
85.6 |
90.6 |
2.9 |
N/A |
LongBench v1 |
48.1 |
N/A |
51.5 |
51.5 |
44.2 |
45.3 |
34.7 |
N/A |
エージェントツールの使用 |
|
|
|
|
|
|
|
|
BFCL-v3 |
65.2 |
N/A |
57.7 |
N/A |
|
|
|
|
🔧 技術詳細
詳細については、技術レポート、HuggingFace論文、ブログ、およびGitHubを参照してください。
📄 ライセンス
このモデルは exaone
ライセンスの下で提供されています。詳細については、LICENSE を参照してください。