google_gemma-3-4b-it-qat-GGUF开源模型 - 多量化级别，受限环境高效推理之选

首页

Google Gemma 3 4b It Qat GGUF

由 bartowski 开发

基于Google QAT权重量化的Gemma 3B模型，支持多种量化级别，适用于资源受限环境下的高效推理。

大型语言模型 #量化感知训练 #ARM/AVX优化 #多轮对话模型

下载量 4,538

发布时间 : 4/18/2025

模型简介

这是Google Gemma 3B模型的量化版本，采用量化感知训练(QAT)技术生成，通过llama.cpp工具进行imatrix量化处理，提供从BF16到极低比特率的多种量化选项，特别适合在消费级硬件上运行。

模型特点

量化感知训练(QAT)

基于Google官方QAT权重生成，相比后训练量化能保持更好的模型性能

多样化量化选项

提供从BF16到极低比特率(Q2_K)的20+种量化版本，满足不同硬件需求

ARM架构优化

部分量化版本特别优化ARM处理器，支持在线权重重组

imatrix量化增强

使用llama.cpp的imatrix选项进行量化，基于专门数据集优化量化效果

模型能力

文本生成

对话系统

指令跟随

内容创作

使用案例

本地AI应用

个人助手

在本地设备上运行智能对话助手

低延迟响应，保护隐私

内容创作

辅助写作和创意生成

高质量文本输出

研究开发

量化技术研究

比较不同量化方法对模型性能的影响

提供多种量化版本对比

🚀 Google Gemma-3-4b-it-qat的Llamacpp imatrix量化版本

本项目是对Google提供的Gemma-3-4b-it-qat模型进行量化处理。这些量化版本基于Google提供的QAT（量化感知训练）权重生成。

主要特性

多种量化类型：提供了丰富的量化类型，如Q4_0、Q4_1、Q5_K_M等，以满足不同的性能和质量需求。
性能优化：部分量化版本（如Q4_0）由于采用了QAT技术，性能有所提升，并且支持为ARM和AVX CPU推理进行在线重新打包。
多平台支持：可以在LM Studio中运行，也可以直接使用llama.cpp或其他基于llama.cpp的项目运行。

安装指南

安装huggingface-cli

首先，确保你已经安装了huggingface-cli：

pip install -U "huggingface_hub[cli]"

下载特定文件

你可以指定要下载的特定文件：

huggingface-cli download bartowski/google_gemma-3-4b-it-qat-GGUF --include "google_gemma-3-4b-it-qat-Q4_K_M.gguf" --local-dir ./

下载拆分文件

如果模型大于50GB，它会被拆分成多个文件。要将它们全部下载到本地文件夹，请运行：

huggingface-cli download bartowski/google_gemma-3-4b-it-qat-GGUF --include "google_gemma-3-4b-it-qat-Q8_0/*" --local-dir ./

你可以指定一个新的本地目录（如google_gemma-3-4b-it-qat-Q8_0），也可以将它们全部下载到当前目录（./）。

使用示例

运行模型

你可以在LM Studio中运行这些量化模型，也可以直接使用llama.cpp或其他基于llama.cpp的项目运行。

提示格式

<bos><start_of_turn>user
{system_prompt}

{prompt}<end_of_turn>
<start_of_turn>model
<end_of_turn>
<start_of_turn>model

详细文档

量化文件信息

文件名	量化类型	文件大小	拆分情况	描述
gemma-3-4b-it-qat-bf16.gguf	bf16	7.77GB	false	完整的BF16权重。
gemma-3-4b-it-qat-Q8_0.gguf	Q8_0	4.13GB	false	极高质量，通常不需要，但提供了最大可用的量化。
gemma-3-4b-it-qat-Q6_K_L.gguf	Q6_K_L	3.35GB	false	嵌入和输出权重使用Q8_0。非常高质量，接近完美，推荐。
gemma-3-4b-it-qat-Q6_K.gguf	Q6_K	3.19GB	false	非常高质量，接近完美，推荐。
gemma-3-4b-it-qat-Q5_K_L.gguf	Q5_K_L	2.99GB	false	嵌入和输出权重使用Q8_0。高质量，推荐。
gemma-3-4b-it-qat-Q5_K_M.gguf	Q5_K_M	2.83GB	false	高质量，推荐。
gemma-3-4b-it-qat-Q5_K_S.gguf	Q5_K_S	2.76GB	false	高质量，推荐。
gemma-3-4b-it-qat-Q4_K_L.gguf	Q4_K_L	2.65GB	false	嵌入和输出权重使用Q8_0。良好质量，推荐。
gemma-3-4b-it-qat-Q4_1.gguf	Q4_1	2.56GB	false	旧格式，性能与Q4_K_S相似，但在Apple硅芯片上的每瓦令牌数有所提高。
gemma-3-4b-it-qat-Q4_K_M.gguf	Q4_K_M	2.49GB	false	良好质量，大多数用例的默认大小，推荐。
gemma-3-4b-it-qat-Q3_K_XL.gguf	Q3_K_XL	2.40GB	false	嵌入和输出权重使用Q8_0。质量较低但可用，适合低内存情况。
gemma-3-4b-it-qat-Q4_K_S.gguf	Q4_K_S	2.38GB	false	质量稍低，但节省更多空间，推荐。
gemma-3-4b-it-qat-Q4_0.gguf	Q4_0	2.37GB	false	旧格式，为ARM和AVX CPU推理提供在线重新打包。
gemma-3-4b-it-qat-IQ4_NL.gguf	IQ4_NL	2.36GB	false	与IQ4_XS相似，但稍大。为ARM CPU推理提供在线重新打包。
gemma-3-4b-it-qat-IQ4_XS.gguf	IQ4_XS	2.26GB	false	质量不错，比Q4_K_S小，性能相似，推荐。
gemma-3-4b-it-qat-Q3_K_L.gguf	Q3_K_L	2.24GB	false	质量较低但可用，适合低内存情况。
gemma-3-4b-it-qat-Q3_K_M.gguf	Q3_K_M	2.10GB	false	低质量。
gemma-3-4b-it-qat-IQ3_M.gguf	IQ3_M	1.99GB	false	中低质量，新方法，性能与Q3_K_M相当。
gemma-3-4b-it-qat-Q3_K_S.gguf	Q3_K_S	1.94GB	false	低质量，不推荐。
gemma-3-4b-it-qat-Q2_K_L.gguf	Q2_K_L	1.89GB	false	嵌入和输出权重使用Q8_0。质量非常低，但出人意料地可用。
gemma-3-4b-it-qat-IQ3_XS.gguf	IQ3_XS	1.86GB	false	质量较低，新方法，性能不错，比Q3_K_S稍好。
gemma-3-4b-it-qat-Q2_K.gguf	Q2_K	1.73GB	false	质量非常低，但出人意料地可用。
gemma-3-4b-it-qat-IQ3_XXS.gguf	IQ3_XXS	1.69GB	false	质量较低，新方法，性能不错，与Q3量化相当。
gemma-3-4b-it-qat-IQ2_M.gguf	IQ2_M	1.54GB	false	相对低质量，使用了最先进的技术，出人意料地可用。