EXAONE-Deep-2.4B-GGUF開源語言模型 - 免費部署助力數學編程推理任務

首頁

EXAONE Deep 2.4B GGUF

由Mungert開發

EXAONE Deep是由LG AI Research開發的高效推理語言模型，參數規模2.4B，在數學和編程等推理任務中表現優異。

大型語言模型支持多種語言開源協議:其他 #多語言推理 #數學編程優化 #低資源部署

下載量 968

發布時間 : 3/19/2025

模型概述

EXAONE Deep是一個專注於推理能力的語言模型系列，該2.4B版本在保持較小參數規模的同時實現了出色的推理性能。

模型特點

高效推理能力

在數學和編程等推理任務中表現優異，超越同等規模模型

優化的架構設計

採用GQA架構(32個Q頭和8個KV頭)，平衡計算效率和模型性能

長上下文支持

支持32,768個token的上下文長度，適合處理長文檔

多格式支持

提供BF16、F16及多種量化版本，適應不同硬件需求

模型能力

數學推理

編程代碼生成

長文本處理

多語言文本生成

使用案例

教育

數學問題解答

解決高中數學競賽級別的問題

在AIME數學競賽測試中表現優異

編程

代碼生成與補全

根據自然語言描述生成編程代碼

在Live Code Bench測試中達到59.5%通過率

🚀 EXAONE-Deep-2.4B GGUF模型

EXAONE-Deep-2.4B GGUF模型由LG AI Research開發併發布，在數學和編碼等各類推理任務中展現出卓越能力。該模型有多種格式可供選擇，能根據不同的硬件條件和內存限制，為用戶提供高效且精準的推理服務。

🚀 快速開始

選擇合適的模型格式

選擇正確的模型格式取決於你的硬件性能和內存限制。

BF16（腦浮點16） – 若支持BF16加速則使用

一種16位浮點格式，專為更快的計算而設計，同時保持良好的精度。
提供與FP32 相似的動態範圍，但內存使用更低。
如果你的硬件支持BF16加速（查看設備規格），建議使用。
與FP32相比，適用於高性能推理，且內存佔用減少。

📌 使用BF16的情況： ✔ 你的硬件具有原生BF16支持（例如，較新的GPU、TPU）。 ✔ 你希望在節省內存的同時獲得更高的精度。 ✔ 你計劃將模型重新量化為其他格式。

📌 避免使用BF16的情況： ❌ 你的硬件不支持BF16（可能會回退到FP32並運行較慢）。 ❌ 你需要與缺乏BF16優化的舊設備兼容。

F16（浮點16） – 比BF16更廣泛支持

一種16位浮點格式，精度高，但取值範圍比BF16小。
適用於大多數支持FP16加速的設備（包括許多GPU和一些CPU）。
數值精度略低於BF16，但通常足以進行推理。

📌 使用F16的情況： ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、內存使用和準確性之間取得平衡。 ✔ 你在GPU或其他針對FP16計算優化的設備上運行。

📌 避免使用F16的情況： ❌ 你的設備缺乏原生FP16支持（可能運行比預期慢）。 ❌ 你有內存限制。

量化模型（Q4_K、Q6_K、Q8等） – 用於CPU和低顯存推理

量化可在儘可能保持準確性的同時減小模型大小和內存使用。

低比特模型（Q4_K） → 內存使用最少，但精度可能較低。
高比特模型（Q6_K、Q8_0） → 準確性更好，但需要更多內存。

📌 使用量化模型的情況： ✔ 你在CPU上運行推理，需要優化的模型。 ✔ 你的設備顯存較低，無法加載全精度模型。 ✔ 你希望在保持合理準確性的同時減少內存佔用。

📌 避免使用量化模型的情況： ❌ 你需要最高的準確性（全精度模型更適合）。 ❌ 你的硬件有足夠的顯存用於更高精度的格式（BF16/F16）。

極低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

這些模型針對極致內存效率進行了優化，非常適合低功耗設備或大規模部署，其中內存是關鍵限制因素。

IQ3_XS：超低比特量化（3位），具有極致的內存效率。
- 用例：最適合超低內存設備，即使Q4_K也太大。
- 權衡：與高比特量化相比，準確性較低。
IQ3_S：小塊大小，實現最大內存效率。
- 用例：最適合低內存設備，其中IQ3_XS過於激進。
IQ3_M：中等塊大小，比IQ3_S具有更好的準確性。
- 用例：適用於低內存設備，其中IQ3_S過於受限。
Q4_K：4位量化，具有逐塊優化，以提高準確性。
- 用例：最適合低內存設備，其中Q6_K太大。
Q4_0：純4位量化，針對ARM設備進行了優化。
- 用例：最適合基於ARM的設備或低內存環境。

總結表：模型格式選擇

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	減少內存的高速推理
F16	高	高	支持FP16的設備	BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境的最佳選擇
Q6_K	中等	適中	內存更多的CPU	量化模型中準確性較好的選擇
Q8_0	高	適中	有足夠顯存的CPU或GPU	量化模型中準確性最高的選擇
IQ3_XS	非常低	非常低	超低內存設備	極致內存效率和低準確性
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備進行優化

✨ 主要特性

多語言支持：支持英語和韓語。
多種模型格式：提供BF16、F16、量化模型等多種格式，滿足不同硬件和內存需求。
高性能推理：在數學和編碼等推理任務中表現出色。
廣泛的部署框架：可在TensorRT-LLM、vLLM等多種框架中進行推理。

📦 安裝指南

文檔未提供具體安裝步驟，可參考EXAONE Deep GitHub獲取更多關於推理框架的詳細信息。

💻 使用示例

文檔未提供代碼示例。

📚 詳細文檔

包含的文件及詳情

`EXAONE-Deep-2.4B-bf16.gguf`

模型權重以BF16保存。
如果你想將模型重新量化為不同格式，請使用此文件。
如果你的設備支持BF16加速，則最佳選擇。

`EXAONE-Deep-2.4B-f16.gguf`

模型權重以F16存儲。
如果你的設備支持FP16，特別是當BF16不可用時，請使用此文件。

`EXAONE-Deep-2.4B-bf16-q8_0.gguf`

輸出和嵌入保持為BF16。
所有其他層量化為Q8_0。
如果你的設備支持BF16，並且你想要量化版本，請使用此文件。

`EXAONE-Deep-2.4B-f16-q8_0.gguf`

輸出和嵌入保持為F16。
所有其他層量化為Q8_0。

`EXAONE-Deep-2.4B-q4_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q4_K。
適用於內存有限的CPU推理。

`EXAONE-Deep-2.4B-q4_k_s.gguf`

最小的Q4_K變體，以犧牲準確性為代價減少內存使用。
最適合極低內存設置。

`EXAONE-Deep-2.4B-q6_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q6_K。

`EXAONE-Deep-2.4B-q8_0.gguf`

完全Q8量化的模型，以獲得更好的準確性。
需要更多內存，但提供更高的精度。

`EXAONE-Deep-2.4B-iq3_xs.gguf`

IQ3_XS量化，針對極致內存效率進行了優化。
最適合超低內存設備。

`EXAONE-Deep-2.4B-iq3_m.gguf`

IQ3_M量化，提供中等塊大小以提高準確性。
適用於低內存設備。

`EXAONE-Deep-2.4B-q4_0.gguf`

純Q4_0量化，針對ARM設備進行了優化。
最適合低內存環境。
為獲得更好的準確性，建議使用IQ4_NL。

測試LLM

如果你覺得這些模型有用，請點贊❤。也非常感謝你測試我的網絡監控助手👉 Network Monitor Assitant。

💬 點擊聊天圖標（主頁和儀表盤頁面右下角）。選擇一個大語言模型；在大語言模型類型TurboLLM -> FreeLLM -> TestLLM之間切換。

測試內容

我正在針對我的網絡監控服務進行函數調用實驗。使用小型開源模型。我關注的問題是“模型可以多小仍能正常工作”。

🟡 TestLLM – 使用llama.cpp在CPU虛擬機的6個線程上運行當前測試模型（加載大約需要15秒。推理速度相當慢，並且一次只處理一個用戶提示 — 仍在努力擴展！）。如果你好奇，我很樂意分享其工作原理！

其他可用的AI助手

🟢 TurboLLM – 使用gpt-4o-mini，速度快！注意：由於OpenAI模型價格昂貴，令牌有限，但你可以登錄或下載免費網絡監控代理以獲取更多令牌，或者使用TestLLM。

🔵 HugLLM – 運行開源Hugging Face模型，速度快，運行小型模型（≈8B），因此質量較低，可獲得2倍更多令牌（取決於Hugging Face API可用性）。

模型介紹

我們推出了EXAONE Deep，它在包括數學和編碼基準測試在內的各種推理任務中表現出卓越的能力，參數範圍從2.4B到32B，由LG AI Research開發併發布。該模型在論文EXAONE Deep: Reasoning Enhanced Language Models中進行了描述，代碼可在此處獲取。評估結果表明：1) EXAONE Deep 2.4B優於其他類似規模的模型；2) EXAONE Deep 7.8B不僅優於類似規模的開放權重模型，還優於專有推理模型OpenAI o1-mini；3) EXAONE Deep 32B與領先的開放權重模型相比具有競爭力。

更多詳細信息，請參考我們的文檔、博客和GitHub。

模型參數

屬性	詳情
模型類型	EXAONE-Deep-2.4B
訓練數據	未提及
參數量（不包括嵌入）	2.14B
層數	30
注意力頭數量	GQA，32個Q頭和8個KV頭
詞表大小	102,400
上下文長度	32,768個令牌
詞嵌入綁定	是（與7.8B和32B模型不同）

評估結果

以下表格顯示了數學和編碼等推理任務的評估結果。完整的評估結果可在文檔中找到。

模型	MATH-500 (pass@1)	AIME 2024 (pass@1 / cons@64)	AIME 2025 (pass@1 / cons@64)	CSAT Math 2025 (pass@1)	GPQA Diamond (pass@1)	Live Code Bench (pass@1)
EXAONE Deep 32B	95.7	72.1 / 90.0	65.8 / 80.0	94.5	66.1	59.5
DeepSeek-R1-Distill-Qwen-32B	94.3	72.6 / 83.3	55.2 / 73.3	84.1	62.1	57.2
QwQ-32B	95.5	79.5 / 86.7	67.1 / 76.7	94.4	63.3	63.4
DeepSeek-R1-Distill-Llama-70B	94.5	70.0 / 86.7	53.9 / 66.7	88.8	65.2	57.5
DeepSeek-R1 (671B)	97.3	79.8 / 86.7	66.8 / 80.0	89.9	71.5	65.9
EXAONE Deep 7.8B	94.8	70.0 / 83.3	59.6 / 76.7	89.9	62.6	55.2
DeepSeek-R1-Distill-Qwen-7B	92.8	55.5 / 83.3	38.5 / 56.7	79.7	49.1	37.6
DeepSeek-R1-Distill-Llama-8B	89.1	50.4 / 80.0	33.6 / 53.3	74.1	49.0	39.6
OpenAI o1-mini	90.0	63.6 / 80.0	54.8 / 66.7	84.4	60.0	53.8
EXAONE Deep 2.4B	92.3	52.5 / 76.7	47.9 / 73.3	79.2	54.3	46.6
DeepSeek-R1-Distill-Qwen-1.5B	83.9	28.9 / 52.7	23.9 / 36.7	65.6	33.8	16.9

部署

EXAONE Deep模型可以在各種框架中進行推理，例如：

TensorRT-LLM
vLLM
SGLang
llama.cpp
Ollama
LM-Studio

更多關於推理框架的詳細信息，請參考我們的EXAONE Deep GitHub。

量化

我們提供了使用AWQ預量化的EXAONE Deep模型，以及幾種GGUF格式的量化類型。請參考我們的EXAONE Deep集合以找到相應的量化模型。

使用指南

為了達到預期的性能，我們建議使用以下配置：

確保模型以<thought>開始進行推理步驟。如果省略它，模型的輸出質量可能會下降。你可以通過使用tokenizer.apply_chat_template()並設置add_generation_prompt=True輕鬆應用此功能。請查看快速開始部分的示例代碼。
EXAONE Deep模型的推理步驟通常包含在<thought> ... </thought>中，並且通常有很多令牌，因此在多輪對話中可能需要刪除之前的推理步驟。提供的分詞器會自動處理此問題。
避免使用系統提示，並在用戶提示中構建指令。
額外的指令有助於模型進行更深入的推理，從而使模型生成更好的輸出。
- 對於數學問題，指令**“請逐步推理，並將最終答案放在\boxed{}中。”** 很有幫助。
- 有關我們評估設置（包括提示）的更多信息，請參考我們的文檔。
在我們的評估中，我們使用temperature=0.6和top_p=0.95進行生成。
評估模型時，建議多次測試以準確評估預期性能。

侷限性

EXAONE語言模型有一定的侷限性，偶爾可能會生成不適當的響應。語言模型根據令牌的輸出概率生成響應，這是在從訓練數據中學習時確定的。雖然我們已盡力從訓練數據中排除個人、有害和有偏見的信息，但仍可能包含一些有問題的內容，從而可能導致不良響應。請注意，EXAONE語言模型生成的文本並不反映LG AI Research的觀點。

可能會生成不適當的答案，其中包含個人、有害或其他不適當的信息。
可能會生成有偏見的響應，與年齡、性別、種族等相關。
生成的響應嚴重依賴於訓練數據的統計信息，這可能導致生成語義或語法錯誤的句子。
由於模型不反映最新信息，響應可能是錯誤或矛盾的。

LG AI Research致力於減少EXAONE語言模型可能帶來的潛在風險。用戶在使用EXAONE語言模型時，不得從事任何可能誘導生成違反LG AI道德原則的不適當輸出的惡意活動（例如，輸入非法信息）。

🔧 技術細節

文檔未提供具體技術實現細節。

📄 許可證

該模型遵循EXAONE AI Model License Agreement 1.1 - NC許可協議。

引用

@article{exaone-deep,
  title={EXAONE Deep: Reasoning Enhanced Language Models},
  author={{LG AI Research}},
  journal={arXiv preprint arXiv:2503.12524},
  year={2025}
}