EXAONE-4.0-1.2B-GGUFオープンソース多言語大規模言語モデル - 英語、韓国語、スペイン語をサポートし、2つのモードを兼ね備える

ホーム

EXAONE 4.0 1.2B GGUF

Mungertによって開発

EXAONE-4.0-1.2Bは多言語大規模言語モデルで、非推論モードと推論モードを統合し、英語、韓国語、スペイン語をサポートしています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #混合推論モード #多言語対応 #スマートツール呼び出し

ダウンロード数 417

リリース時間 : 7/20/2025

モデル概要

EXAONE-4.0-1.2Bは多機能大規模言語モデルで、非推論モードと推論モードを兼ね備え、多言語タスクとスマートツール呼び出しをサポートします。

モデル特徴

混合モード

非推論モードと推論モードを統合し、可用性と高度な推論能力を兼ね備えています。

多言語対応

英語、韓国語、スペイン語をサポートし、多言語能力を拡張しています。

スマートツール呼び出し

スマートエージェントとして機能し、ツールを呼び出して問題を解決できます。

混合注意力機構

局所注意力とグローバル注意力を結合した方式を採用し、モデルの性能を向上させています。

モデル能力

テキスト生成

多言語処理

複雑な推論

ツール呼び出し

指令遵守

使用事例

汎用質問応答

多言語質問応答

英語、韓国語、スペイン語の質問応答タスクをサポートします。

複雑な推論

数学問題の解決

複雑な数学とプログラミングの問題を解決します。

AIME 2025やHMMT Feb 2025などのベンチマークテストで優れた成績を収めています。

ツール呼び出し

スマートエージェント

外部ツールを呼び出してタスクを完了します。例えば、サイコロを振るなど。

🚀 EXAONE-4.0-1.2B GGUFモデル

EXAONE-4.0-1.2B GGUFモデルは、高度なテキスト生成能力を備えたモデルです。Non-reasoning modeとReasoning modeを統合し、多言語対応しています。

🚀 クイックスタート

あなたは、元のものからフォークされたtransformersライブラリをインストールする必要があります。これは、私たちのPRで利用可能です。このPRがマージされてリリースされたら、このセクションを更新します。

以下のコマンドを実行することで、EXAONE 4.0をサポートする最新バージョンのtransformersをインストールできます。

pip install git+https://github.com/lgai-exaone/transformers@add-exaone4

基本的な使用法

一般的な使用には、以下の例のようにEXAONE 4.0モデルを使用できます。

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-4.0-1.2B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="bfloat16",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# あなたのプロンプトを選択
prompt = "Explain how wonderful you are"
prompt = "Explica lo increíble que eres"
prompt = "너가 얼마나 대단한지 설명해 봐"

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

高度な使用法

EXAONE 4.0モデルは、複雑な問題を処理するための推論能力を備えています。tokenizerでenable_thinking=True引数を使用することで、推論モードをアクティブにできます。これにより、<think>タグで始まる推論ブロックが開き、閉じることはありません。

messages = [
    {"role": "user", "content": "Which one is bigger, 3.12 vs 3.9?"}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
    enable_thinking=True,
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=128,
    do_sample=True,
    temperature=0.6,
    top_p=0.95
)
print(tokenizer.decode(output[0]))

⚠️ 重要提示

推論モードでのモデル生成は、サンプリングパラメータに敏感に影響を受ける可能性があります。より良い品質を得るためには、使用ガイドラインを参照してください。

エージェントツールの使用

EXAONE 4.0モデルは、ツール呼び出し機能を備えたエージェントとして使用できます。効果的なツール呼び出しのために、モデルにツールスキーマを提供できます。

import random

def roll_dice(max_num: int):
    return random.randint(1, max_num)

tools = [
    {
        "type": "function",
        "function": {
            "name": "roll_dice",
            "description": "Roll a dice with the number 1 to N. User can select the number N.",
            "parameters": {
                "type": "object",
                "required": ["max_num"],
                "properties": {
                    "max_num": {
                        "type": "int",
                        "description": "Max number of the dice"
                    }
                }
            }
        }
    }
]

messages = [
    {"role": "user", "content": "Roll D6 dice twice!"}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt",
    tools=tools,
)

output = model.generate(
    input_ids.to(model.device),
    max_new_tokens=1024,
    do_sample=True,
    temperature=0.6,
    top_p=0.95,
)
print(tokenizer.decode(output[0]))

✨ 主な機能

EXAONE 4.0の概要

私たちは、EXAONE 4.0を導入しました。これは、Non-reasoning modeとReasoning modeを統合し、EXAONE 3.5の優れた使いやすさと、EXAONE Deepの高度な推論能力の両方を実現します。エージェント型AIの時代に備えて、EXAONE 4.0はエージェントツールの使用などの重要な機能を組み込んでおり、その多言語機能は英語と韓語に加えてスペイン語もサポートするように拡張されています。

EXAONE 4.0モデルシリーズは、高性能に最適化された中規模の32Bモデルと、デバイス上でのアプリケーション向けに設計された小規模の1.2Bモデルの2つのサイズで構成されています。

新しいアーキテクチャの変更

EXAONE 4.0アーキテクチャでは、以前のEXAONEモデルと比較して、以下のような新しいアーキテクチャの変更を適用しています。

ハイブリッドアテンション：32Bモデルには、Local attention (スライディングウィンドウアテンション) と Global attention (フルアテンション) を3:1の比率で組み合わせたハイブリッドアテンション方式を採用しています。グローバルコンテキストの理解を向上させるために、グローバルアテンションにはRoPE (Rotary Positional Embedding) を使用していません。
QK-Reorder-Norm：従来のPre-LN方式からLayerNormの位置を並べ替え、アテンションとMLPの出力に直接LayerNormを適用し、QとKの投影の直後にRMS正規化を追加しています。これにより、より多くの計算を消費するものの、下流のタスクでより良いパフォーマンスを得ることができます。

詳細については、技術レポート、HuggingFace論文、ブログ、およびGitHubを参照してください。

モデル構成

属性	详情
パラメータ数（埋め込みを除く）	1.07B
レイヤー数	30
アテンションヘッド数	GQAで32ヘッドと8-KVヘッド
語彙サイズ	102,400
コンテキスト長	65,536トークン

📦 インストール

TensorRT-LLM

TensorRT-LLMは最新のコミットで公式にEXAONE 4.0モデルをサポートしています。リリースされる前に、TensorRT-LLMリポジトリをクローンしてソースからビルドする必要があります。

git clone https://github.com/NVIDIA/TensorRT-LLM.git

リポジトリをクローンした後、インストールのためにソースをビルドする必要があります。TensorRT-LLM環境をビルドするガイドについては、公式ドキュメントを参照してください。

以下の手順でTensorRT-LLMサーバーを実行できます。

追加の設定YAMLファイルを作成します。

# extra_llm_api_config.yaml
kv_cache_config:
  enable_block_reuse: false

設定を使用してサーバーを実行します。

trtllm-serve serve [MODEL_PATH] --backend pytorch --extra_llm_api_options extra_llm_api_config.yaml

詳細については、TensorRT-LLMのEXAONEのドキュメントを参照してください。

💡 使用建议

現在、vllmやsglangなどの他の推論エンジンは公式にEXAONE 4.0をサポートしていません。これらのライブラリが更新され次第、更新します。

📚 ドキュメント

モデル生成の詳細

このモデルは、llama.cppを使用して、コミット bf9087f5 で生成されました。

ここをクリックすると、適切なGGUFモデル形式を選択するための情報を取得できます。

パフォーマンス

以下の表は、各モデルの推論モードと非推論モードでの評価結果を示しています。評価の詳細については、技術レポートを参照してください。

✅ は、モデルが目的に応じて推論/非推論を選択して評価されたハイブリッド推論能力を持っていることを示しています。
韓国語の実用的および専門的な知識を評価するために、KMMLU-Redux と KMMLU-Pro の両方のベンチマークを採用しています。両方のデータセットは公開されています！

32B推論モード

	EXAONE 4.0 32B	Phi 4 reasoning-plus	Magistral Small-2506	Qwen 3 32B	Qwen 3 235B	DeepSeek R1-0528
モデルサイズ	32.0B	14.7B	23.6B	32.8B	235B	671B
ハイブリッド推論	✅			✅	✅
世界知識
MMLU-Redux	92.3	90.8	86.8	90.9	92.7	93.4
MMLU-Pro	81.8	76.0	73.4	80.0	83.0	85.0
GPQA-Diamond	75.4	68.9	68.2	68.4	71.1	81.0
数学/コーディング
AIME 2025	85.3	78.0	62.8	72.9	81.5	87.5
HMMT Feb 2025	72.9	53.6	43.5	50.4	62.5	79.4
LiveCodeBench v5	72.6	51.7	55.8	65.7	70.7	75.2
LiveCodeBench v6	66.7	47.1	47.4	60.1	58.9	70.3
命令追従
IFEval	83.7	84.9	37.9	85.0	83.4	80.8
Multi-IF (EN)	73.5	56.1	27.4	73.4	73.4	72.0
エージェントツールの使用
BFCL-v3	63.9	N/A	40.4	70.3	70.8	64.7
Tau-bench (Airline)	51.5	N/A	38.5	34.5	37.5	53.5
Tau-bench (Retail)	62.8	N/A	10.2	55.2	58.3	63.9
多言語性
KMMLU-Pro	67.7	55.8	51.5	61.4	68.1	71.7
KMMLU-Redux	72.7	62.7	54.6	67.5	74.5	77.0
KSM	87.6	79.8	71.9	82.8	86.2	86.7
MMMLU (ES)	85.6	84.3	68.9	82.8	86.7	88.2
MATH500 (ES)	95.8	94.2	83.5	94.3	95.1	96.0

32B非推論モード

	EXAONE 4.0 32B	Phi 4	Mistral-Small-2506	Gemma 3 27B	Qwen3 32B	Qwen3 235B	Llama-4-Maverick	DeepSeek V3-0324
モデルサイズ	32.0B	14.7B	24.0B	27.4B	32.8B	235B	402B	671B
ハイブリッド推論	✅				✅	✅
世界知識
MMLU-Redux	89.8	88.3	85.9	85.0	85.7	89.2	92.3	92.3
MMLU-Pro	77.6	70.4	69.1	67.5	74.4	77.4	80.5	81.2
GPQA-Diamond	63.7	56.1	46.1	42.4	54.6	62.9	69.8	68.4
数学/コーディング
AIME 2025	35.9	17.8	30.2	23.8	20.2	24.7	18.0	50.0
HMMT Feb 2025	21.8	4.0	16.9	10.3	9.8	11.9	7.3	29.2
LiveCodeBench v5	43.3	24.6	25.8	27.5	31.3	35.3	43.4	46.7
LiveCodeBench v6	43.1	27.4	26.9	29.7	28.0	31.4	32.7	44.0
命令追従
IFEval	84.8	63.0	77.8	82.6	83.2	83.2	85.4	81.2
Multi-IF (EN)	71.6	47.7	63.2	72.1	71.9	72.5	77.9	68.3
長文コンテキスト
HELMET	58.3	N/A	61.9	58.3	54.5	63.3	13.7	N/A
RULER	88.2	N/A	71.8	66.0	85.6	90.6	2.9	N/A
LongBench v1	48.1	N/A	51.5	51.5	44.2	45.3	34.7	N/A
エージェントツールの使用
BFCL-v3	65.2	N/A	57.7	N/A

🔧 技術詳細