EXAONE Deep 7.8B GGUF

Developed by QuantFactory

EXAONE Deepシリーズのモデルは、数学やプログラミングなどの推論タスクで優れた性能を発揮し、7.8Bバージョンは同規模のオープンソースモデルを上回り、一部のプロプライエタリモデルをも凌駕しています。

大規模言語モデル Supports Multiple LanguagesOpen Source License:Other #数学推論の最適化 #長文脈のサポート #韓国語と英語のバイリンガル

Downloads 297

Release Time : 3/25/2025

Model Overview

EXAONE Deepシリーズの推論強化型言語モデルで、数学やプログラミングなどの複雑な推論タスクに特化しており、英語と韓国語をサポートしています。

Model Features

卓越した推論能力

数学やプログラミングなどの複雑な推論タスクで優れた性能を発揮し、同規模のオープンソースモデルを上回ります。

長文脈のサポート

32,768トークンの文脈長をサポートし、長文書や複雑な問題の処理に適しています。

多言語サポート

英語と韓国語をサポートし、特に韓国語の数学問題や推論タスクの処理に適しています。

効率的なアーキテクチャ

GQAアーキテクチャ（グループ化クエリ注意）を採用し、性能と効率のバランスを取っています。

Model Capabilities

数学推論

プログラミング問題解決

韓国語テキスト生成

複雑な問題解答

段階的な推論表示

Use Cases

教育

数学競技問題の解答

AIMEなどの数学競技問題を解決し、段階的な推論プロセスを提供します。

AIME 2024評価で優れた成績を収めました

韓国語CSAT数学問題の解答

韓国の大学入試数学問題を解答し、選択問題と記述問題を含みます。

CSAT数学2025評価で良好な成績を収めました

プログラミング

コード生成と問題解決

プログラミング問題を解決し、対応するコードを生成します。

Live Code Bench評価で良好な成績を収めました

base_model: LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct base_model_relation: finetune license: other license_name: exaone license_link: LICENSE language:

en
ko tags:
lg-ai
exaone
exaone-deep pipeline_tag: text-generation library_name: transformers

QuantFactory/EXAONE-Deep-7.8B-GGUF

これは、llama.cppを使用して作成されたLGAI-EXAONE/EXAONE-Deep-7.8Bの量子化バージョンです。

オリジナルモデルカード

EXAONE-Deep-7.8B

はじめに

LG AI Researchが開発・公開した、2.4Bから32Bパラメータまでの数学やコーディングベンチマークを含む様々な推論タスクで優れた能力を発揮するEXAONE Deepを紹介します。評価結果は、1) EXAONE Deep 2.4Bが同規模の他のモデルを上回り、2) EXAONE Deep 7.8Bが同規模のオープンウェイトモデルだけでなく、プロプライエタリな推論モデルであるOpenAI o1-miniも上回り、3) EXAONE Deep 32Bが主要なオープンウェイトモデルに対して競争力のある性能を示すことを示しています。

詳細については、ドキュメント、ブログ、およびGitHubを参照してください。

このリポジトリには、以下の特徴を持つ推論用7.8B言語モデルが含まれています：

パラメータ数（埋め込みを除く）：6.98B
レイヤー数：32
アテンションヘッド数：32 Qヘッドと8 KVヘッドを持つGQA
語彙サイズ：102,400
コンテキスト長：32,768トークン

クイックスタート

transformers v4.43.1以降の使用を推奨します。

以下は、モデルとの会話型推論を実行するためのコードスニペットです：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread

model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True    # ストリーミングオプションを選択

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# プロンプトを選択：
#   数学の例（AIME 2024）
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.

Please reason step by step, and put your final answer within \boxed{}."""
#   韓国語MCQAの例（CSAT Math 2025）
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.

Options :
A) 120
B) 125
C) 130
D) 135
E) 140
 
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""

messages = [
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

if streaming:
    streamer = TextIteratorStreamer(tokenizer)
    thread = Thread(target=model.generate, kwargs=dict(
        input_ids=input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
        streamer=streamer
    ))
    thread.start()

    for text in streamer:
        print(text, end="", flush=True)
else:
    output = model.generate(
        input_ids.to("cuda"),
        eos_token_id=tokenizer.eos_token_id,
        max_new_tokens=32768,
        do_sample=True,
        temperature=0.6,
        top_p=0.95,
    )
    print(tokenizer.decode(output[0]))

注意

EXAONE Deepモデルは最適化された構成でトレーニングされているため、最適なパフォーマンスを達成するには使用ガイドラインセクションに従うことを推奨します。

評価

以下の表は、数学やコーディングなどの推論タスクの評価結果を示しています。完全な評価結果はドキュメントで確認できます。

モデル	MATH-500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek-R1-Distill-Qwen-32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ-32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek-R1-Distill-Llama-70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek-R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9

EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek-R1-Distill-Qwen-7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek-R1-Distill-Llama-8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1-mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8

EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek-R1-Distill-Qwen-1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

デプロイメント

EXAONE Deepモデルは、以下のような様々なフレームワークで推論できます：

TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio

推論フレームワークに関する詳細は、EXAONE Deep GitHubを参照してください。

量子化

AWQおよびGGUF形式のいくつかの量子化タイプで事前量子化されたEXAONE Deepモデルを提供しています。対応する量子化モデルについては、EXAONE Deepコレクションを参照してください。

使用ガイドライン

期待されるパフォーマンスを達成するために、以下の構成を使用することを推奨します：

推論ステップのためにモデルが<thought>\nで始まることを確認してください。これを省略すると、モデルの出力品質が低下する可能性があります。この機能は、tokenizer.apply_chat_template()をadd_generation_prompt=Trueで使用することで簡単に適用できます。クイックスタートセクションのサンプルコードを確認してください。
EXAONE Deepモデルの推論ステップは<thought>\n...\n</thought>で囲まれており、通常多くのトークンを持つため、マルチターンの状況では以前の推論ステップを削除する必要があるかもしれません。提供されているトークナイザーはこれを自動的に処理します。
システムプロンプトを使用せず、ユーザープロンプトに指示を構築してください。
追加の指示は、モデルがより深く推論するのに役立ち、より良い出力を生成します。
- 数学の問題の場合、**"Please reason step by step, and put your final answer within \boxed{}."**という指示が役立ちます。
- プロンプトを含む評価設定の詳細については、ドキュメントを参照してください。
評価では、生成にtemperature=0.6とtop_p=0.95を使用しています。
モデルを評価する際は、期待されるパフォーマンスを正確に評価するために複数回テストすることを推奨します。

制限事項

EXAONE言語モデルには一定の制限があり、不適切な応答を生成することがあります。言語モデルはトークンの出力確率に基づいて応答を生成し、トレーニングデータから学習中に決定されます。トレーニングデータから個人情報、有害情報、偏った情報を除外するためにあらゆる努力を払っていますが、問題のあるコンテンツが含まれている可能性があり、望ましくない応答を引き起こす可能性があります。EXAONE言語モデルによって生成されたテキストは、LG AI Researchの見解を反映していないことに注意してください。

個人情報、有害情報、その他の不適切な情報を含む不適切な回答が生成されることがあります。
年齢、性別、人種などに関連する偏った応答が生成されることがあります。
生成された応答は、トレーニングデータの統計に大きく依存するため、意味的または構文的に誤った文が生成されることがあります。
モデルは最新の情報を反映していないため、誤ったまたは矛盾する応答が生成されることがあります。

LG AI Researchは、EXAONE言語モデルから生じる潜在的なリスクを軽減するために努力しています。ユーザーは、EXAONE言語モデルを使用する際に、LG AIの倫理原則に違反する不適切な出力を誘発する可能性のある悪意のある活動（例えば、違法情報の入力）に従事することはできません。

ライセンス

モデルはEXAONE AI Model License Agreement 1.1 - NCの下でライセンスされています。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}