EXAONE-Deep-2.4B-GGUFオープンソース言語モデル - 無料でのデプロイで数学・プログラミング推論タスクをサポート

ホーム

EXAONE Deep 2.4B GGUF

Mungertによって開発

EXAONE DeepはLG AI Researchが開発した効率的な推論言語モデルで、パラメータ規模2.4B、数学やプログラミングなどの推論タスクで優れた性能を発揮します。

大規模言語モデル複数言語対応オープンソースライセンス:その他 #多言語推論 #数学プログラミング最適化 #低リソース展開

ダウンロード数 968

リリース時間 : 3/19/2025

モデル概要

EXAONE Deepは推論能力に特化した言語モデルシリーズで、この2.4Bバージョンは比較的小さなパラメータ規模を維持しながら優れた推論性能を実現しています。

モデル特徴

効率的な推論能力

数学やプログラミングなどの推論タスクで優れた性能を発揮し、同等規模のモデルを凌駕します

最適化されたアーキテクチャ設計

GQAアーキテクチャ(32個のQヘッドと8個のKVヘッド)を採用し、計算効率とモデル性能のバランスを実現

長文脈サポート

32,768トークンの文脈長をサポートし、長文書の処理に適しています

マルチフォーマットサポート

BF16、F16および様々な量子化バージョンを提供し、異なるハードウェア要件に対応

モデル能力

数学推論

プログラミングコード生成

長文テキスト処理

多言語テキスト生成

使用事例

教育

数学問題解答

高校数学コンテストレベルの問題を解決

AIME数学コンテストテストで優れた成績を収めました

プログラミング

コード生成と補完

自然言語記述に基づいてプログラミングコードを生成

Live Code Benchテストで59.5%の通過率を達成

🚀 EXAONE-Deep-2.4B GGUFモデル

EXAONE-Deep-2.4B GGUFモデルは、多言語対応で、数学やコーディングなどの推論タスクで優れた性能を発揮します。モデル形式の選択に柔軟性があり、様々なハードウェア環境での利用が可能です。

🚀 クイックスタート

このモデルを使い始めるには、まず適切なモデル形式を選択する必要があります。選択に際しては、ハードウェア性能とメモリ制約を考慮してください。

✨ 主な機能

多言語対応：英語と韓国語に対応しています。
高性能推論：数学やコーディングなどの推論タスクで優れた性能を発揮します。
モデル形式の選択肢が豊富：BF16、F16、量子化モデルなど、様々なモデル形式から選択できます。

📦 インストール

推論フレームワークを使用してモデルをインストールできます。対応するフレームワークには、TensorRT-LLM、vLLM、SGLang、llama.cpp、Ollama、LM-Studio などがあります。詳細については、EXAONE DeepのGitHub を参照してください。

📚 ドキュメント

適切なモデル形式の選択

正しいモデル形式を選択するには、ハードウェア性能とメモリ制約を考慮する必要があります。

BF16 (Brain Float 16) – BF16アクセラレーションが利用可能な場合に使用

高速計算を目的とした16ビット浮動小数点形式で、精度も良好です。
FP32と同様のダイナミックレンジを持ちながら、低いメモリ使用量を実現します。
ハードウェアがBF16アクセラレーションをサポートしている場合に推奨されます（デバイスの仕様を確認してください）。
FP32と比較してメモリ使用量を削減しながら、高性能な推論に最適です。

📌 BF16を使用する場合 ✔ ハードウェアがネイティブでBF16をサポートしている場合（例：最新のGPU、TPU）。 ✔ メモリを節約しながらより高い精度が必要な場合。 ✔ モデルを別の形式に再量子化する予定の場合。

📌 BF16を避ける場合 ❌ ハードウェアがBF16をサポートしていない場合（FP32にフォールバックし、低速になる可能性があります）。 ❌ BF16最適化がない古いデバイスとの互換性が必要な場合。

F16 (Float 16) – BF16よりも広くサポートされている

16ビットの浮動小数点形式で、高精度ですが、BF16よりも表現できる値の範囲が狭いです。
FP16アクセラレーションをサポートするほとんどのデバイスで動作します（多くのGPUや一部のCPUを含む）。
BF16よりもわずかに数値精度が低いですが、一般的に推論には十分です。

📌 F16を使用する場合 ✔ ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合。 ✔ 速度、メモリ使用量、精度のバランスが必要な場合。 ✔ GPUまたはFP16計算に最適化された他のデバイスで実行している場合。

📌 F16を避ける場合 ❌ デバイスがネイティブでFP16をサポートしていない場合（予想よりも低速になる可能性があります）。 ❌ メモリに制限がある場合。

量子化モデル (Q4_K, Q6_K, Q8など) – CPUと低VRAMでの推論用

量子化は、できるだけ精度を維持しながら、モデルサイズとメモリ使用量を削減します。

低ビットモデル (Q4_K) → 最小限のメモリ使用量に最適ですが、精度が低くなる可能性があります。
高ビットモデル (Q6_K, Q8_0) → より高い精度が得られますが、より多くのメモリが必要です。

📌 量子化モデルを使用する場合 ✔ CPUで推論を実行し、最適化されたモデルが必要な場合。 ✔ デバイスのVRAMが少なく、全精度モデルをロードできない場合。 ✔ 適度な精度を維持しながらメモリ使用量を削減したい場合。

📌 量子化モデルを避ける場合 ❌ 最高精度が必要な場合（全精度モデルの方が適しています）。 ❌ ハードウェアに高い精度の形式（BF16/F16）用の十分なVRAMがある場合。

超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)

これらのモデルは、極限のメモリ効率を目指して最適化されており、低電力デバイスやメモリが重要な制約となる大規模なデプロイメントに最適です。

IQ3_XS：超低ビット量子化（3ビット）で、極限のメモリ効率を実現します。
- 使用ケース：Q4_Kでも大きすぎる超低メモリデバイスに最適です。
- トレードオフ：高ビット量子化と比較して精度が低くなります。
IQ3_S：最大限のメモリ効率を実現するための小さなブロックサイズ。
- 使用ケース：IQ3_XSが過度に制限的な場合の低メモリデバイスに最適です。
IQ3_M：IQ3_Sよりも精度を向上させるための中サイズブロック。
- 使用ケース：IQ3_Sが制限的な場合の低メモリデバイスに適しています。
Q4_K：ブロック単位の最適化により精度を向上させた4ビット量子化。
- 使用ケース：Q6_Kでは大きすぎる低メモリデバイスに最適です。
Q4_0：純粋な4ビット量子化で、ARMデバイスに最適化されています。
- 使用ケース：ARMベースのデバイスまたは低メモリ環境に最適です。

まとめ表：モデル形式の選択

モデル形式	精度	メモリ使用量	デバイス要件	最適な使用ケース
BF16	最高	高	BF16対応のGPU/CPU	メモリを削減した高速推論
F16	高	高	FP16対応のデバイス	BF16が利用できない場合のGPU推論
Q4_K	中程度以下	低	CPUまたは低VRAMデバイス	メモリ制約のある環境に最適
Q6_K	中程度	中程度	より多くのメモリを持つCPU	量子化モデルでも精度が高い
Q8_0	高	中程度	十分なVRAMを持つCPUまたはGPU	量子化モデルの中で最高の精度
IQ3_XS	非常に低い	非常に低い	超低メモリデバイス	極限のメモリ効率と低い精度
Q4_0	低	低	ARMまたは低メモリデバイス	llama.cppがARMデバイス用に最適化できる

含まれるファイルと詳細

`EXAONE-Deep-2.4B-bf16.gguf`

モデルの重みがBF16で保存されています。
モデルを別の形式に再量子化したい場合に使用します。
デバイスがBF16アクセラレーションをサポートしている場合に最適です。

`EXAONE-Deep-2.4B-f16.gguf`

モデルの重みがF16で保存されています。
デバイスがFP16をサポートしている場合、特にBF16が利用できない場合に使用します。

`EXAONE-Deep-2.4B-bf16-q8_0.gguf`

出力と埋め込みはBF16のままです。
他のすべてのレイヤーはQ8_0に量子化されています。
デバイスがBF16をサポートし、量子化バージョンが必要な場合に使用します。

`EXAONE-Deep-2.4B-f16-q8_0.gguf`

出力と埋め込みはF16のままです。
他のすべてのレイヤーはQ8_0に量子化されています。

`EXAONE-Deep-2.4B-q4_k.gguf`

出力と埋め込みはQ8_0に量子化されています。
他のすべてのレイヤーはQ4_Kに量子化されています。
メモリが制限されたCPU推論に適しています。

`EXAONE-Deep-2.4B-q4_k_s.gguf`

Q4_Kの最小バリアントで、精度を犠牲にしてメモリ使用量を削減します。
超低メモリの設定に最適です。

`EXAONE-Deep-2.4B-q6_k.gguf`

出力と埋め込みはQ8_0に量子化されています。
他のすべてのレイヤーはQ6_Kに量子化されています。

`EXAONE-Deep-2.4B-q8_0.gguf`

完全にQ8に量子化されたモデルで、より高い精度を実現します。
より多くのメモリが必要ですが、より高い精度を提供します。

`EXAONE-Deep-2.4B-iq3_xs.gguf`

IQ3_XS量子化で、極限のメモリ効率を目指して最適化されています。
超低メモリデバイスに最適です。

`EXAONE-Deep-2.4B-iq3_m.gguf`

IQ3_M量子化で、精度を向上させるための中サイズブロックを提供します。
低メモリデバイスに適しています。

`EXAONE-Deep-2.4B-q4_0.gguf`

純粋なQ4_0量子化で、ARMデバイスに最適化されています。
低メモリ環境に最適です。
より高い精度が必要な場合はIQ4_NLを選択してください。

これらのモデルが役に立った場合

いいねを押していただけると嬉しいです ❤ また、私のネットワークモニターアシスタントをテストしていただけると大変ありがたいです。👉 ネットワークモニターアシスタント

💬 チャットアイコン（メインページとダッシュボードページの右下）をクリックしてください。LLMを選択し、LLMタイプをTurboLLM -> FreeLLM -> TestLLMに切り替えます。

私がテストしているもの

私は、ネットワーク監視サービスに対して関数呼び出しを試しています。小さなオープンソースモデルを使用しています。私が興味を持っているのは、「どれだけ小さくしても機能するのか」という問題です。

🟡 TestLLM – Cpu VMの6スレッドでllama.cppを使用して現在のテストモデルを実行します（ロードに約15秒かかるはずです。推論速度はかなり遅く、一度に1つのユーザープロンプトしか処理できません—まだスケーリングに取り組んでいます！）。もし興味があれば、その仕組みを喜んで共有します！

他の利用可能なAIアシスタント

🟢 TurboLLM – gpt-4o-miniを使用しています。高速です！注意：OpenAIのモデルは高価なため、トークンに制限がありますが、ログインまたはダウンロードして無料のネットワークモニターエージェントを取得することで、より多くのトークンを取得できます。あるいは、TestLLMを使用してください。

🔵 HugLLM – オープンソースのHugging Faceモデルを実行します。高速ですが、小さなモデル（≈8B）を使用しているため、品質が低くなります。Hugging Face APIの利用可能状況に応じて、2倍のトークンを取得できます。

はじめに

LG AI Researchによって開発およびリリースされた、24億から320億のパラメータを持つEXAONE Deepを紹介します。このモデルは、数学やコーディングのベンチマークを含むさまざまな推論タスクで優れた性能を発揮します。モデルについては論文EXAONE Deep: Reasoning Enhanced Language Modelsで説明されており、コードはこちらで入手できます。評価結果から、1) EXAONE Deep 2.4Bは同規模の他のモデルを上回り、2) EXAONE Deep 7.8Bは同規模のオープンウェイトモデルだけでなく、独自の推論モデルであるOpenAI o1-miniをも上回り、3) EXAONE Deep 32Bは主要なオープンウェイトモデルと競合する性能を発揮することがわかりました。

詳細については、ドキュメント、ブログ、およびGitHubを参照してください。

このリポジトリには、以下の特徴を持つ24億パラメータの推論言語モデルが含まれています。

属性	详情
パラメータ数（埋め込みを除く）	21.4億
レイヤー数	30
アテンションヘッド数	GQAで32個のQヘッドと8個のKVヘッド
語彙サイズ	102,400
コンテキスト長	32,768トークン
単語埋め込みの共有	True（7.8Bおよび32Bモデルとは異なります）

⚠️ 重要提示

EXAONE Deepモデルは最適化された構成で学習されているため、最適な性能を得るためには使用ガイドラインのセクションに従うことをお勧めします。

評価

以下の表は、数学やコーディングなどの推論タスクの評価結果を示しています。完全な評価結果はドキュメントで確認できます。

モデル	MATH-500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek-R1-Distill-Qwen-32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ-32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek-R1-Distill-Llama-70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek-R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek-R1-Distill-Qwen-7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek-R1-Distill-Llama-8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1-mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek-R1-Distill-Qwen-1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

デプロイメント

EXAONE Deepモデルは、以下のような様々なフレームワークで推論を行うことができます。

TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio

推論フレームワークの詳細については、EXAONE DeepのGitHubを参照してください。

量子化

AWQによる事前量子化されたEXAONE Deepモデルと、GGUF形式のいくつかの量子化タイプを提供しています。対応する量子化モデルを見つけるには、EXAONE Deepのコレクションを参照してください。

使用ガイドライン

期待される性能を得るために、以下の構成を使用することをお勧めします。

推論ステップでは、モデルが <thought> で始まるようにしてください。これを省略すると、モデルの出力品質が低下する可能性があります。tokenizer.apply_chat_template() を add_generation_prompt=True で使用することで、この機能を簡単に適用できます。クイックスタートセクションのサンプルコードを確認してください。
EXAONE Deepモデルの推論ステップは <thought> ... </thought> で囲まれており、通常は多くのトークンを含むため、マルチターンの状況では、以前の推論ステップを削除する必要がある場合があります。提供されているトークナイザーはこれを自動的に処理します。
システムプロンプトを使用せず、ユーザープロンプトに指示を組み込んでください。
追加の指示は、モデルがより深く推論するのに役立ち、より良い出力を生成するようになります。
- 数学の問題の場合、「Please reason step by step, and put your final answer within \boxed{}.」という指示が役立ちます。
- プロンプトを含む評価設定の詳細については、ドキュメントを参照してください。
評価では、生成に temperature=0.6 と top_p=0.95 を使用しています。
モデルを評価する際には、期待される性能を正確に評価するために、複数回のテストを行うことをお勧めします。

制限事項

EXAONE言語モデルには一定の制限があり、時折不適切な応答を生成することがあります。言語モデルはトークンの出力確率に基づいて応答を生成し、これは学習データからの学習中に決定されます。学習データから個人情報、有害な情報、偏見のある情報を除外するよう努めましたが、一部の問題のあるコンテンツが含まれている可能性があり、望ましくない応答が生成されることがあります。EXAONE言語モデルによって生成されたテキストは、LG AI Researchの見解を反映するものではないことに注意してください。

個人情報、有害な情報、その他の不適切な情報を含む不適切な回答が生成される場合があります。
年齢、性別、人種などに関連する偏見のある応答が生成される場合があります。
生成された応答は学習データの統計に大きく依存するため、意味的または構文的に誤った文が生成されることがあります。
モデルは最新の情報を反映していないため、応答が誤っていたり矛盾していたりすることがあります。

LG AI Researchは、EXAONE言語モデルに起因する潜在的なリスクを減らすよう努めています。ユーザーは、EXAONE言語モデルを使用する際に、LG AIの倫理原則に違反する不適切な出力を誘発するような悪意のある活動（例：違法情報の入力）を行わないでください。

📄 ライセンス

このモデルは、EXAONE AIモデルライセンス契約1.1 - NCの下でライセンスされています。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}