base_model: LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
base_model_relation: finetune
license: other
license_name: exaone
license_link: LICENSE
language:
- en
- ko
tags:
- lg-ai
- exaone
- exaone-deep
pipeline_tag: text-generation
library_name: transformers

QuantFactory/EXAONE-Deep-7.8B-GGUF
これは、llama.cppを使用して作成されたLGAI-EXAONE/EXAONE-Deep-7.8Bの量子化バージョンです。
オリジナルモデルカード
EXAONE-Deep-7.8B
はじめに
LG AI Researchが開発・公開した、2.4Bから32Bパラメータまでの数学やコーディングベンチマークを含む様々な推論タスクで優れた能力を発揮するEXAONE Deepを紹介します。評価結果は、1) EXAONE Deep 2.4Bが同規模の他のモデルを上回り、2) EXAONE Deep 7.8Bが同規模のオープンウェイトモデルだけでなく、プロプライエタリな推論モデルであるOpenAI o1-miniも上回り、3) EXAONE Deep 32Bが主要なオープンウェイトモデルに対して競争力のある性能を示すことを示しています。
詳細については、ドキュメント、ブログ、およびGitHubを参照してください。
このリポジトリには、以下の特徴を持つ推論用7.8B言語モデルが含まれています:
- パラメータ数(埋め込みを除く):6.98B
- レイヤー数:32
- アテンションヘッド数:32 Qヘッドと8 KVヘッドを持つGQA
- 語彙サイズ:102,400
- コンテキスト長:32,768トークン
クイックスタート
transformers
v4.43.1以降の使用を推奨します。
以下は、モデルとの会話型推論を実行するためのコードスニペットです:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
from threading import Thread
model_name = "LGAI-EXAONE/EXAONE-Deep-7.8B"
streaming = True
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = r"""Let $x,y$ and $z$ be positive real numbers that satisfy the following system of equations:
\[\log_2\left({x \over yz}\right) = {1 \over 2}\]\[\log_2\left({y \over xz}\right) = {1 \over 3}\]\[\log_2\left({z \over xy}\right) = {1 \over 4}\]
Then the value of $\left|\log_2(x^4y^3z^2)\right|$ is $\tfrac{m}{n}$ where $m$ and $n$ are relatively prime positive integers. Find $m+n$.
Please reason step by step, and put your final answer within \boxed{}."""
prompt = r"""Question : $a_1 = 2$인 수열 $\{a_n\}$과 $b_1 = 2$인 등차수열 $\{b_n\}$이 모든 자연수 $n$에 대하여\[\sum_{k=1}^{n} \frac{a_k}{b_{k+1}} = \frac{1}{2} n^2\]을 만족시킬 때, $\sum_{k=1}^{5} a_k$의 값을 구하여라.
Options :
A) 120
B) 125
C) 130
D) 135
E) 140
Please reason step by step, and you should write the correct option alphabet (A, B, C, D or E) within \\boxed{}."""
messages = [
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
if streaming:
streamer = TextIteratorStreamer(tokenizer)
thread = Thread(target=model.generate, kwargs=dict(
input_ids=input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
streamer=streamer
))
thread.start()
for text in streamer:
print(text, end="", flush=True)
else:
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=32768,
do_sample=True,
temperature=0.6,
top_p=0.95,
)
print(tokenizer.decode(output[0]))
注意
EXAONE Deepモデルは最適化された構成でトレーニングされているため、最適なパフォーマンスを達成するには使用ガイドラインセクションに従うことを推奨します。
評価
以下の表は、数学やコーディングなどの推論タスクの評価結果を示しています。完全な評価結果はドキュメントで確認できます。
モデル |
MATH-500 (pass@1) |
AIME 2024 (pass@1 / cons@64) |
AIME 2025 (pass@1 / cons@64) |
CSAT Math 2025 (pass@1) |
GPQA Diamond (pass@1) |
Live Code Bench (pass@1) |
EXAONE Deep 32B |
95.7 |
72.1 / 90.0 |
65.8 / 80.0 |
94.5 |
66.1 |
59.5 |
DeepSeek-R1-Distill-Qwen-32B |
94.3 |
72.6 / 83.3 |
55.2 / 73.3 |
84.1 |
62.1 |
57.2 |
QwQ-32B |
95.5 |
79.5 / 86.7 |
67.1 / 76.7 |
94.4 |
63.3 |
63.4 |
DeepSeek-R1-Distill-Llama-70B |
94.5 |
70.0 / 86.7 |
53.9 / 66.7 |
88.8 |
65.2 |
57.5 |
DeepSeek-R1 (671B) |
97.3 |
79.8 / 86.7 |
66.8 / 80.0 |
89.9 |
71.5 |
65.9 |
|
EXAONE Deep 7.8B |
94.8 |
70.0 / 83.3 |
59.6 / 76.7 |
89.9 |
62.6 |
55.2 |
DeepSeek-R1-Distill-Qwen-7B |
92.8 |
55.5 / 83.3 |
38.5 / 56.7 |
79.7 |
49.1 |
37.6 |
DeepSeek-R1-Distill-Llama-8B |
89.1 |
50.4 / 80.0 |
33.6 / 53.3 |
74.1 |
49.0 |
39.6 |
OpenAI o1-mini |
90.0 |
63.6 / 80.0 |
54.8 / 66.7 |
84.4 |
60.0 |
53.8 |
|
EXAONE Deep 2.4B |
92.3 |
52.5 / 76.7 |
47.9 / 73.3 |
79.2 |
54.3 |
46.6 |
DeepSeek-R1-Distill-Qwen-1.5B |
83.9 |
28.9 / 52.7 |
23.9 / 36.7 |
65.6 |
33.8 |
16.9 |
デプロイメント
EXAONE Deepモデルは、以下のような様々なフレームワークで推論できます:
TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio
推論フレームワークに関する詳細は、EXAONE Deep GitHubを参照してください。
量子化
AWQおよびGGUF形式のいくつかの量子化タイプで事前量子化されたEXAONE Deepモデルを提供しています。対応する量子化モデルについては、EXAONE Deepコレクションを参照してください。
使用ガイドライン
期待されるパフォーマンスを達成するために、以下の構成を使用することを推奨します:
- 推論ステップのためにモデルが
<thought>\n
で始まることを確認してください。これを省略すると、モデルの出力品質が低下する可能性があります。この機能は、tokenizer.apply_chat_template()
をadd_generation_prompt=True
で使用することで簡単に適用できます。クイックスタートセクションのサンプルコードを確認してください。
- EXAONE Deepモデルの推論ステップは
<thought>\n...\n</thought>
で囲まれており、通常多くのトークンを持つため、マルチターンの状況では以前の推論ステップを削除する必要があるかもしれません。提供されているトークナイザーはこれを自動的に処理します。
- システムプロンプトを使用せず、ユーザープロンプトに指示を構築してください。
- 追加の指示は、モデルがより深く推論するのに役立ち、より良い出力を生成します。
- 数学の問題の場合、**"Please reason step by step, and put your final answer within \boxed{}."**という指示が役立ちます。
- プロンプトを含む評価設定の詳細については、ドキュメントを参照してください。
- 評価では、生成に
temperature=0.6
とtop_p=0.95
を使用しています。
- モデルを評価する際は、期待されるパフォーマンスを正確に評価するために複数回テストすることを推奨します。
制限事項
EXAONE言語モデルには一定の制限があり、不適切な応答を生成することがあります。言語モデルはトークンの出力確率に基づいて応答を生成し、トレーニングデータから学習中に決定されます。トレーニングデータから個人情報、有害情報、偏った情報を除外するためにあらゆる努力を払っていますが、問題のあるコンテンツが含まれている可能性があり、望ましくない応答を引き起こす可能性があります。EXAONE言語モデルによって生成されたテキストは、LG AI Researchの見解を反映していないことに注意してください。
- 個人情報、有害情報、その他の不適切な情報を含む不適切な回答が生成されることがあります。
- 年齢、性別、人種などに関連する偏った応答が生成されることがあります。
- 生成された応答は、トレーニングデータの統計に大きく依存するため、意味的または構文的に誤った文が生成されることがあります。
- モデルは最新の情報を反映していないため、誤ったまたは矛盾する応答が生成されることがあります。
LG AI Researchは、EXAONE言語モデルから生じる潜在的なリスクを軽減するために努力しています。ユーザーは、EXAONE言語モデルを使用する際に、LG AIの倫理原則に違反する不適切な出力を誘発する可能性のある悪意のある活動(例えば、違法情報の入力)に従事することはできません。
ライセンス
モデルはEXAONE AI Model License Agreement 1.1 - NCの下でライセンスされています。
引用
@article{exaone-deep,
title={EXAONE Deep: Reasoning Enhanced Language Models},
author={{LG AI Research}},
journal={arXiv preprint arXiv:2503.12524},
year={2025}
}
連絡先
LG AI Researchテクニカルサポート: contact_us@lgresearch.ai