LGAI-EXAONE_EXAONE-4.0-32B-GGUF開源模型 - 靈活適配不同硬件免費使用

首頁

LGAI EXAONE EXAONE 4.0 32B GGUF

由bartowski開發

LGAI-EXAONE的EXAONE-4.0-32B模型的量化版本，使用llama.cpp工具進行量化處理，旨在為不同硬件條件的用戶提供更靈活的使用選擇。

大型語言模型 #高精度量化 #多硬件適配 #低內存優化

下載量 708

發布時間 : 7/19/2025

模型概述

EXAONE-4.0-32B是一個大型語言模型，提供多種量化版本以適應不同硬件需求，支持文本生成和對話任務。

模型特點

多種量化類型

提供豐富的量化類型供用戶選擇，以平衡模型質量和文件大小。

在線重打包

部分量化版本支持在線重打包，可在運行時自動優化性能。

靈活的下載方式

支持使用huggingface-cli下載特定文件或整個模型。

模型能力

文本生成

對話系統

支持多種量化版本

使用案例

文本生成

對話系統

可用於構建智能對話系統，支持多輪對話。

內容創作

生成高質量文本內容，如文章、故事等。

🚀 LGAI-EXAONE的EXAONE-4.0-32B的Llamacpp imatrix量化版本

本項目提供了LGAI-EXAONE的EXAONE-4.0-32B模型的量化版本，使用llama.cpp工具進行量化處理，旨在為不同硬件條件的用戶提供更靈活的使用選擇。

🚀 快速開始

使用 llama.cpp 的 b5934 版本進行量化。原始模型：https://huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B 所有量化版本均使用imatrix選項，並使用來自此處的數據集。你可以在 LM Studio 中運行這些量化版本，也可以直接使用 llama.cpp 或任何基於llama.cpp的項目來運行。

✨ 主要特性

多種量化類型：提供了豐富的量化類型供用戶選擇，以平衡模型質量和文件大小。
在線重打包：部分量化版本支持在線重打包，可在運行時自動優化性能。
靈活的下載方式：支持使用huggingface-cli下載特定文件或整個模型。

📦 安裝指南

使用huggingface-cli下載

首先，確保你已經安裝了huggingface-cli：

pip install -U "huggingface_hub[cli]"

然後，你可以指定要下載的特定文件：

huggingface-cli download bartowski/LGAI-EXAONE_EXAONE-4.0-32B-GGUF --include "LGAI-EXAONE_EXAONE-4.0-32B-Q4_K_M.gguf" --local-dir ./

如果模型大小超過50GB，它會被分割成多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/LGAI-EXAONE_EXAONE-4.0-32B-GGUF --include "LGAI-EXAONE_EXAONE-4.0-32B-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如LGAI-EXAONE_EXAONE-4.0-32B-Q8_0），也可以將它們全部下載到當前目錄（./）。

💻 使用示例

提示格式

由於未指定聊天模板，因此使用默認模板。這可能不正確，請查看原始模型卡以獲取詳細信息。

[|system|]
{system_prompt}[|endofturn|]
[|user|]
{prompt}[|endofturn|]
[|assistant|]
<think>

</think>

📚 詳細文檔

下載文件選擇

文件名	量化類型	文件大小	是否分割	描述
EXAONE-4.0-32B-bf16.gguf	bf16	64.01GB	true	完整的BF16權重。
EXAONE-4.0-32B-Q8_0.gguf	Q8_0	34.01GB	false	極高質量，通常不需要，但為最大可用量化。
EXAONE-4.0-32B-Q6_K_L.gguf	Q6_K_L	26.51GB	false	嵌入和輸出權重使用Q8_0。非常高質量，接近完美，推薦。
EXAONE-4.0-32B-Q6_K.gguf	Q6_K	26.26GB	false	非常高質量，接近完美，推薦。
EXAONE-4.0-32B-Q5_K_L.gguf	Q5_K_L	23.02GB	false	嵌入和輸出權重使用Q8_0。高質量，推薦。
EXAONE-4.0-32B-Q5_K_M.gguf	Q5_K_M	22.70GB	false	高質量，推薦。
EXAONE-4.0-32B-Q5_K_S.gguf	Q5_K_S	22.08GB	false	高質量，推薦。
EXAONE-4.0-32B-Q4_1.gguf	Q4_1	20.11GB	false	舊格式，性能與Q4_K_S相似，但在Apple硅芯片上每瓦令牌數有所提高。
EXAONE-4.0-32B-Q4_K_L.gguf	Q4_K_L	19.73GB	false	嵌入和輸出權重使用Q8_0。質量良好，推薦。
EXAONE-4.0-32B-Q4_K_M.gguf	Q4_K_M	19.34GB	false	質量良好，是大多數用例的默認大小，推薦。
EXAONE-4.0-32B-Q4_K_S.gguf	Q4_K_S	18.29GB	false	質量略低，但節省更多空間，推薦。
EXAONE-4.0-32B-Q4_0.gguf	Q4_0	18.21GB	false	舊格式，提供用於ARM和AVX CPU推理的在線重打包。
EXAONE-4.0-32B-IQ4_NL.gguf	IQ4_NL	18.19GB	false	與IQ4_XS相似，但略大。提供用於ARM CPU推理的在線重打包。
EXAONE-4.0-32B-Q3_K_XL.gguf	Q3_K_XL	17.25GB	false	嵌入和輸出權重使用Q8_0。質量較低但可用，適合低內存情況。
EXAONE-4.0-32B-IQ4_XS.gguf	IQ4_XS	17.21GB	false	質量不錯，比Q4_K_S小，性能相似，推薦。
EXAONE-4.0-32B-Q3_K_L.gguf	Q3_K_L	16.80GB	false	質量較低但可用，適合低內存情況。
EXAONE-4.0-32B-Q3_K_M.gguf	Q3_K_M	15.49GB	false	低質量。
EXAONE-4.0-32B-IQ3_M.gguf	IQ3_M	14.38GB	false	中低質量，新方法，性能與Q3_K_M相當。
EXAONE-4.0-32B-Q3_K_S.gguf	Q3_K_S	13.96GB	false	低質量，不推薦。
EXAONE-4.0-32B-IQ3_XS.gguf	IQ3_XS	13.28GB	false	質量較低，新方法，性能不錯，略優於Q3_K_S。
EXAONE-4.0-32B-IQ3_XXS.gguf	IQ3_XXS	12.46GB	false	質量較低，新方法，性能不錯，與Q3量化相當。
EXAONE-4.0-32B-Q2_K_L.gguf	Q2_K_L	12.44GB	false	嵌入和輸出權重使用Q8_0。質量非常低，但出人意料地可用。
EXAONE-4.0-32B-Q2_K.gguf	Q2_K	11.93GB	false	質量非常低，但出人意料地可用。
EXAONE-4.0-32B-IQ2_M.gguf	IQ2_M	10.90GB	false	質量相對較低，使用最先進的技術，出人意料地可用。
EXAONE-4.0-32B-IQ2_S.gguf	IQ2_S	10.03GB	false	質量低，使用最先進的技術，可用。
EXAONE-4.0-32B-IQ2_XS.gguf	IQ2_XS	9.62GB	false	質量低，使用最先進的技術，可用。

嵌入/輸出權重

部分量化版本（如Q3_K_XL、Q4_K_L等）採用標準量化方法，將嵌入和輸出權重量化為Q8_0，而非默認值。

ARM/AVX信息

以前，你會下載Q4_0_4_4/4_8/8_8，這些版本的權重會在內存中交錯排列，以便通過一次加載更多數據來提高ARM和AVX機器的性能。

然而，現在有了一種稱為“在線重打包”的權重處理方式，詳情見此PR。如果你使用Q4_0，並且你的硬件能從權重重打包中受益，它會在運行時自動進行。

從llama.cpp構建版本 b4282 開始，你將無法運行Q4_0_X_X文件，而需要使用Q4_0。

此外，如果你想獲得略高的質量，可以使用IQ4_NL，感謝此PR，它也會為ARM重打包權重，不過目前僅支持4_4。加載時間可能會更長，但總體速度會提高。

選擇哪個文件？

點擊查看詳情

Artefact2 提供了一篇很棒的文章，帶有展示各種性能的圖表，可點擊此處查看

首先，你需要確定你能運行多大的模型。這需要你瞭解自己有多少RAM和/或VRAM。

如果你希望模型運行得儘可能快，你需要將整個模型放入GPU的VRAM中。選擇文件大小比GPU總VRAM小1 - 2GB的量化版本。
如果你追求絕對最高質量，將系統RAM和GPU的VRAM相加，然後選擇文件大小比該總和小1 - 2GB的量化版本。

接下來，你需要決定是使用“I-quant”還是“K-quant”。

如果你不想考慮太多，可以選擇K-quant。這些格式為“QX_K_X”，如Q5_K_M。
如果你想深入瞭解，可以查看這個非常有用的功能圖表：llama.cpp feature matrix

但基本上，如果你目標是低於Q4的量化，並且你使用的是cuBLAS（Nvidia）或rocBLAS（AMD），你應該考慮I-quant。這些格式為IQX_X，如IQ3_M。這些是較新的格式，在相同大小下提供更好的性能。

這些I-quant也可以在CPU上使用，但比對應的K-quant慢，因此你需要在速度和性能之間做出權衡。

🔧 技術細節

在線重打包

以前，為了提高ARM和AVX機器的性能，會下載Q4_0_4_4/4_8/8_8版本，其權重在內存中交錯排列以一次加載更多數據。現在有了“在線重打包”技術，對於Q4_0版本，如果硬件適合重打包權重，會在運行時自動進行。從llama.cpp構建版本 b4282 開始，不再支持Q4_0_X_X文件，需使用Q4_0。此外，IQ4_NL版本也會為ARM重打包權重，雖加載時間可能變長，但總體速度會提高。

量化選擇

在選擇量化版本時，需要考慮硬件資源（RAM和VRAM）、運行速度和模型質量的平衡。如果追求速度，應選擇文件大小比GPU VRAM小1 - 2GB的量化版本；如果追求最高質量，可將系統RAM和GPU VRAM相加，選擇文件大小比該總和小1 - 2GB的量化版本。同時，還需在“I-quant”和“K-quant”之間做出選擇，K-quant格式為“QX_K_X”，適合不想深入考慮的用戶；I-quant格式為IQX_X，適合使用cuBLAS（Nvidia）或rocBLAS（AMD）且目標低於Q4量化的用戶，但在CPU上運行比K-quant慢。