google_gemma-3-4b-it-qat-GGUF開源模型 - 多量化級別，受限環境高效推理之選

首頁

Google Gemma 3 4b It Qat GGUF

由bartowski開發

基於Google QAT權重量化的Gemma 3B模型，支持多種量化級別，適用於資源受限環境下的高效推理。

大型語言模型 #量化感知訓練 #ARM/AVX優化 #多輪對話模型

下載量 4,538

發布時間 : 4/18/2025

模型概述

這是Google Gemma 3B模型的量化版本，採用量化感知訓練(QAT)技術生成，通過llama.cpp工具進行imatrix量化處理，提供從BF16到極低比特率的多種量化選項，特別適合在消費級硬件上運行。

模型特點

量化感知訓練(QAT)

基於Google官方QAT權重生成，相比後訓練量化能保持更好的模型性能

多樣化量化選項

提供從BF16到極低比特率(Q2_K)的20+種量化版本，滿足不同硬件需求

ARM架構優化

部分量化版本特別優化ARM處理器，支持在線權重重組

imatrix量化增強

使用llama.cpp的imatrix選項進行量化，基於專門數據集優化量化效果

模型能力

文本生成

對話系統

指令跟隨

內容創作

使用案例

本地AI應用

個人助手

在本地設備上運行智能對話助手

低延遲響應，保護隱私

內容創作

輔助寫作和創意生成

高質量文本輸出

研究開發

量化技術研究

比較不同量化方法對模型性能的影響

提供多種量化版本對比

🚀 Google Gemma-3-4b-it-qat的Llamacpp imatrix量化版本

本項目是對Google提供的Gemma-3-4b-it-qat模型進行量化處理。這些量化版本基於Google提供的QAT（量化感知訓練）權重生成。

主要特性

多種量化類型：提供了豐富的量化類型，如Q4_0、Q4_1、Q5_K_M等，以滿足不同的性能和質量需求。
性能優化：部分量化版本（如Q4_0）由於採用了QAT技術，性能有所提升，並且支持為ARM和AVX CPU推理進行在線重新打包。
多平臺支持：可以在LM Studio中運行，也可以直接使用llama.cpp或其他基於llama.cpp的項目運行。

安裝指南

安裝huggingface-cli

首先，確保你已經安裝了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下載特定文件

你可以指定要下載的特定文件：

huggingface-cli download bartowski/google_gemma-3-4b-it-qat-GGUF --include "google_gemma-3-4b-it-qat-Q4_K_M.gguf" --local-dir ./

下載拆分文件

如果模型大於50GB，它會被拆分成多個文件。要將它們全部下載到本地文件夾，請運行：

huggingface-cli download bartowski/google_gemma-3-4b-it-qat-GGUF --include "google_gemma-3-4b-it-qat-Q8_0/*" --local-dir ./

你可以指定一個新的本地目錄（如google_gemma-3-4b-it-qat-Q8_0），也可以將它們全部下載到當前目錄（./）。

使用示例

運行模型

你可以在LM Studio中運行這些量化模型，也可以直接使用llama.cpp或其他基於llama.cpp的項目運行。

提示格式

<bos><start_of_turn>user
{system_prompt}

{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

詳細文檔

量化文件信息

文件名	量化類型	文件大小	拆分情況	描述
gemma-3-4b-it-qat-bf16.gguf	bf16	7.77GB	false	完整的BF16權重。
gemma-3-4b-it-qat-Q8_0.gguf	Q8_0	4.13GB	false	極高質量，通常不需要，但提供了最大可用的量化。
gemma-3-4b-it-qat-Q6_K_L.gguf	Q6_K_L	3.35GB	false	嵌入和輸出權重使用Q8_0。非常高質量，接近完美，推薦。
gemma-3-4b-it-qat-Q6_K.gguf	Q6_K	3.19GB	false	非常高質量，接近完美，推薦。
gemma-3-4b-it-qat-Q5_K_L.gguf	Q5_K_L	2.99GB	false	嵌入和輸出權重使用Q8_0。高質量，推薦。
gemma-3-4b-it-qat-Q5_K_M.gguf	Q5_K_M	2.83GB	false	高質量，推薦。
gemma-3-4b-it-qat-Q5_K_S.gguf	Q5_K_S	2.76GB	false	高質量，推薦。
gemma-3-4b-it-qat-Q4_K_L.gguf	Q4_K_L	2.65GB	false	嵌入和輸出權重使用Q8_0。良好質量，推薦。
gemma-3-4b-it-qat-Q4_1.gguf	Q4_1	2.56GB	false	舊格式，性能與Q4_K_S相似，但在Apple硅芯片上的每瓦令牌數有所提高。
gemma-3-4b-it-qat-Q4_K_M.gguf	Q4_K_M	2.49GB	false	良好質量，大多數用例的默認大小，推薦。
gemma-3-4b-it-qat-Q3_K_XL.gguf	Q3_K_XL	2.40GB	false	嵌入和輸出權重使用Q8_0。質量較低但可用，適合低內存情況。
gemma-3-4b-it-qat-Q4_K_S.gguf	Q4_K_S	2.38GB	false	質量稍低，但節省更多空間，推薦。
gemma-3-4b-it-qat-Q4_0.gguf	Q4_0	2.37GB	false	舊格式，為ARM和AVX CPU推理提供在線重新打包。
gemma-3-4b-it-qat-IQ4_NL.gguf	IQ4_NL	2.36GB	false	與IQ4_XS相似，但稍大。為ARM CPU推理提供在線重新打包。
gemma-3-4b-it-qat-IQ4_XS.gguf	IQ4_XS	2.26GB	false	質量不錯，比Q4_K_S小，性能相似，推薦。
gemma-3-4b-it-qat-Q3_K_L.gguf	Q3_K_L	2.24GB	false	質量較低但可用，適合低內存情況。
gemma-3-4b-it-qat-Q3_K_M.gguf	Q3_K_M	2.10GB	false	低質量。
gemma-3-4b-it-qat-IQ3_M.gguf	IQ3_M	1.99GB	false	中低質量，新方法，性能與Q3_K_M相當。
gemma-3-4b-it-qat-Q3_K_S.gguf	Q3_K_S	1.94GB	false	低質量，不推薦。
gemma-3-4b-it-qat-Q2_K_L.gguf	Q2_K_L	1.89GB	false	嵌入和輸出權重使用Q8_0。質量非常低，但出人意料地可用。
gemma-3-4b-it-qat-IQ3_XS.gguf	IQ3_XS	1.86GB	false	質量較低，新方法，性能不錯，比Q3_K_S稍好。
gemma-3-4b-it-qat-Q2_K.gguf	Q2_K	1.73GB	false	質量非常低，但出人意料地可用。
gemma-3-4b-it-qat-IQ3_XXS.gguf	IQ3_XXS	1.69GB	false	質量較低，新方法，性能不錯，與Q3量化相當。
gemma-3-4b-it-qat-IQ2_M.gguf	IQ2_M	1.54GB	false	相對低質量，使用了最先進的技術，出人意料地可用。