Gemma-3-27b-it重新量化开源模型 - 免费测试量化后性能表现

首页

Gemma 3 27b It Qat Q4 0 GGUF

由 Mungert 开发

这是一个实验性的重新量化模型，基于Google的Gemma-3-27b-it QAT Q4_0量化模型创建，旨在测试重新量化后的性能表现。

大型语言模型 #QAT量化优化 #低比特高性能 #代码生成增强

下载量 1,096

发布时间 : 4/7/2025

模型简介

该模型是通过从Google原始的QAT Q4_0量化模型创建imatrix文件，然后使用这个imatrix将模型重新压缩到更低的比特量化级别而得到的。主要用于测试QAT模型重新量化后是否比量化到相同比特级别的bf16模型表现更好。

模型特点

实验性重新量化

通过从QAT Q4_0模型重新量化，测试是否比从bf16量化的模型表现更好。

性能优化

在测试中显示出比标准量化模型更低的困惑度（4.10 vs 4.56）。

代码生成能力

在代码生成任务中表现出更好的技术准确性和代码质量。

模型能力

文本生成

代码生成

语言理解

文本转换

使用案例

代码生成

安全检测代码生成

生成检测网站是否使用量子安全加密的.NET代码

生成的代码在技术准确性、代码质量和安全性相关性方面优于标准量化模型

语言模型评估

困惑度测试

用于评估语言模型的困惑度表现

在测试中显示出比标准量化模型更低的困惑度（4.10 vs 4.56）

🚀 gemma-3-27b-it-qat-q4_0 GGUF模型

本项目提供了gemma-3-27b-it-qat-q4_0的GGUF模型，对QAT模型重新量化进行了实验，旨在测试其与相同比特级别的bf16模型量化后的性能差异。同时，还对模型的各方面特性进行了详细介绍，包括模型信息、使用方法、训练数据、评估结果等。

🚀 快速开始

运行模型示例

llama.cpp（仅文本）

./llama-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Write a poem about the Kraken."

llama.cpp（图像输入）

wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Describe this image." --image ~/Downloads/surprise.png

ollama（仅文本）

ollama run hf.co/google/gemma-3-27b-it-qat-q4_0-gguf

✨ 主要特性

多模态处理：支持文本和图像输入，生成文本输出，适用于多种文本生成和图像理解任务。
大上下文窗口：拥有128K的大上下文窗口，支持超过140种语言。
资源占用小：相对较小的模型尺寸，可在资源有限的环境中部署，如笔记本电脑、桌面设备或自有云基础设施。
性能提升：通过QAT量化，在显著降低内存需求的同时，保持与bfloat16相近的质量。

📦 安装指南

文档未提及具体安装步骤，可参考上述快速开始部分的代码示例运行模型。

💻 使用示例

基础用法

# llama.cpp（仅文本）
./llama-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Write a poem about the Kraken."

高级用法

# llama.cpp（图像输入）
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Describe this image." --image ~/Downloads/surprise.png

📚 详细文档

模型信息

描述

Gemma是谷歌推出的一系列轻量级、先进的开源模型，基于与Gemini模型相同的研究和技术构建。Gemma 3模型是多模态的，能够处理文本和图像输入，并生成文本输出。其预训练和指令调优变体的权重均开源。Gemma 3具有128K的大上下文窗口，支持超过140种语言，且比之前的版本有更多的尺寸可供选择。该模型适用于各种文本生成和图像理解任务，如问答、摘要和推理。其相对较小的尺寸使其能够在资源有限的环境中部署，如笔记本电脑、桌面设备或自有云基础设施，从而使更多人能够使用先进的AI模型，促进创新。

输入和输出

输入：
- 文本字符串，如问题、提示或待摘要的文档。
- 图像，归一化为896 x 896分辨率，每个图像编码为256个标记。
- 4B、12B和27B尺寸的模型总输入上下文为128K标记，1B尺寸的模型为32K标记。
输出：
- 针对输入生成的文本，如问题的答案、图像内容的分析或文档的摘要。
- 总输出上下文为8192个标记。

模型数据

训练数据集

这些模型在包含多种来源的文本数据集上进行训练。27B模型使用14万亿个标记进行训练，12B模型使用12万亿个标记，4B模型使用4万亿个标记，1B模型使用2万亿个标记。关键组成部分包括：

网页文档：多样化的网页文本集合，确保模型接触到广泛的语言风格、主题和词汇。训练数据集包含超过140种语言的内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提高生成代码和理解代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示和解决数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。

数据预处理

对训练数据应用了以下关键的数据清理和过滤方法：

CSAM过滤：在数据准备过程的多个阶段应用了严格的CSAM（儿童性虐待材料）过滤，以确保排除有害和非法内容。
敏感数据过滤：作为使Gemma预训练模型安全可靠的一部分，使用自动化技术从训练集中过滤掉某些个人信息和其他敏感数据。
其他方法：根据内容质量和安全性进行过滤，符合[我们的政策][safety-policies]。

实现信息

硬件

Gemma使用[张量处理单元（TPU）][tpu]硬件（TPUv4p、TPUv5p和TPUv5e）进行训练。训练视觉语言模型（VLM）需要大量的计算能力。TPU专门为机器学习中常见的矩阵运算而设计，在这一领域具有以下优势：

性能：TPU专门用于处理训练VLM所需的大量计算，与CPU相比，可显著加快训练速度。
内存：TPU通常配备大量的高带宽内存，允许在训练过程中处理大型模型和批量大小，有助于提高模型质量。
可扩展性：TPU Pod（大型TPU集群）为处理大型基础模型日益增长的复杂性提供了可扩展的解决方案。可以在多个TPU设备上分布训练，以实现更快、更高效的处理。
成本效益：在许多情况下，与基于CPU的基础设施相比，TPU可以为训练大型模型提供更具成本效益的解决方案，特别是考虑到更快的训练速度所节省的时间和资源。
这些优势符合[谷歌的可持续运营承诺][sustainability]。

软件

使用[JAX][jax]和[ML Pathways][ml-pathways]进行训练。 JAX使研究人员能够利用最新一代的硬件（包括TPU），实现更快、更高效的大型模型训练。ML Pathways是谷歌为构建能够跨多个任务进行泛化的人工智能系统所做的最新努力，特别适用于基础模型，包括此类大型语言模型。 JAX和ML Pathways的使用方式如[关于Gemini系列模型的论文][gemini-2-paper]中所述：“Jax和Pathways的‘单控制器’编程模型允许单个Python进程编排整个训练过程，极大地简化了开发工作流程。”

🔧 技术细节

量化实验

作者进行了实验，测试QAT模型重新量化后的性能是否优于相同比特级别的bf16模型量化后的性能。从谷歌原始的QAT Q4_0量化模型创建了imatrix文件，然后使用该imatrix将模型重新压缩到更低的比特量化级别。作者使用从bf16量化的4b模型和从QAT Q4_0模型重新量化的模型进行了测试，两种模型均使用相同的张量量化。

测试结果

困惑度测试

python3 ~/code/GGUFModelBuilder/perp_test_2_files.py ./gemma-3-4b-it-qat-q4_0-q3_k_l.gguf ./google_gemma-3-4b-it-q3_k_l.gguf 

Testing model: gemma-3-4b-it-qat-q4_0-q3_k_l.gguf
Running: llama.cpp/llama-perplexity -m gemma-3-4b-it-qat-q4_0-q3_k_l.gguf -f perplexity_test_data.txt --ctx-size 256 --ppl-stride 32 --chunks 1 --threads 4
[✓] Perplexity: 4.0963 (Time: 284.70s)

Testing model: google_gemma-3-4b-it-q3_k_l.gguf
Running: llama.cpp/llama-perplexity -m google_gemma-3-4b-it-q3_k_l.gguf -f perplexity_test_data.txt --ctx-size 256 --ppl-stride 32 --chunks 1 --threads 4
[✓] Perplexity: 4.5557 (Time: 287.15s)

=== Comparison Results ===
Model 1: gemma-3-4b-it-qat-q4_0-q3_k_l.gguf - Perplexity: 4.10 (Time: 284.70s)
Model 2: google_gemma-3-4b-it-q3_k_l.gguf - Perplexity: 4.56 (Time: 287.15s)

Winner: gemma-3-4b-it-qat-q4_0-q3_k_l.gguf (Difference: 0.46)

代码测试

要求两个模型编写一些.NET代码来测试网站是否使用量子安全加密，并让Deepseek-R1进行评估。评估结果显示，QAT q4_0模型的代码在技术准确性、代码质量、安全相关性、现实性和可用性方面均优于BF16模型。但两个模型都存在对TLS/SSL机制的基本误解，未能解决原始问题。要实现生产级解决方案，需要直接检查TLS握手（例如通过SslStream）并支持后量子算法。

评估指标

推理和事实性

基准测试	指标	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10-shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0-shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0-shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0-shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5-shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5-shot	9.48	20.0	31.4	36.1
[ARC-c][arc]	25-shot	38.4	56.2	68.9	70.6
[ARC-e][arc]	0-shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5-shot	58.2	64.7	74.3	78.8
[BIG-Bench Hard][bbh]	few-shot	28.4	50.9	72.6	77.7
[DROP][drop]	1-shot	42.4	60.1	72.2	77.2

STEM和代码

基准测试	指标	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5-shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5-shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5-shot	42.1	57.4	66.2
[MATH][math]	4-shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8-shot	38.4	71.0	82.6
[GPQA][gpqa]	5-shot	15.0	25.4	24.3
[MBPP][mbpp]	3-shot	46.0	60.4	65.6
[HumanEval][humaneval]	0-shot	36.0	45.7	48.8

多语言

基准测试	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global-MMLU-Lite][global-mmlu-lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

多模态

基准测试	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco-cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info-vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss-vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

伦理和安全

评估方法

评估方法包括结构化评估和对相关内容政策的内部红队测试。红队测试由多个不同的团队进行，每个团队有不同的目标和人工评估指标。这些模型针对与伦理和安全相关的多个不同类别进行评估，包括：

儿童安全：评估文本到文本和图像到文本的提示，涵盖儿童安全政策，包括儿童性虐待和剥削。
内容安全：评估文本到文本和图像到文本的提示，涵盖安全政策，包括骚扰、暴力和血腥内容以及仇恨言论。
代表性危害：评估文本到文本和图像到文本的提示，涵盖安全政策，包括偏见、刻板印象以及有害关联或不准确信息。除了开发阶段的评估，还进行“保证评估”，这是我们独立的内部评估，用于责任治理决策。这些评估与模型开发团队分开进行，为发布决策提供信息。高级别的评估结果会反馈给模型团队，但提示集不会公开，以防止过拟合并保持结果对决策的参考价值。保证评估结果作为发布审查的一部分报告给我们的责任与安全委员会。

评估结果

在所有安全测试领域，相对于之前的Gemma模型，在儿童安全、内容安全和代表性危害方面都有显著改进。所有测试均在不使用安全过滤器的情况下进行，以评估模型的能力和行为。对于文本到文本和图像到文本，以及所有模型尺寸，模型产生的政策违规极少，并且在无根据推断方面相对于之前的Gemma模型有显著改进。评估的一个局限性是只包括英语提示。

使用和限制

预期用途

开源视觉语言模型（VLM）在各个行业和领域有广泛的应用。以下潜在用途列表并不全面，其目的是提供有关模型创建者在模型训练和开发过程中考虑的可能用例的上下文信息。

内容创作和通信：
- 文本生成：可用于生成创意文本格式，如诗歌、脚本、代码、营销文案和电子邮件草稿。
- 聊天机器人和对话式AI：为客户服务、虚拟助手或交互式应用程序提供对话界面。
- 文本摘要：生成文本语料库、研究论文或报告的简洁摘要。
- 图像数据提取：用于提取、解释和总结视觉数据，用于文本通信。
研究和教育：
- 自然语言处理（NLP）和VLM研究：可作为研究人员实验VLM和NLP技术、开发算法以及推动该领域发展的基础。
- 语言学习工具：支持交互式语言学习体验，帮助进行语法纠正或提供写作练习。
- 知识探索：帮助研究人员通过生成摘要或回答特定主题的问题来探索大量文本。

限制

训练数据：
- 训练数据的质量和多样性会显著影响模型的能力。训练数据中的偏差或差距可能导致模型响应的局限性。
- 训练数据集的范围决定了模型能够有效处理的主题领域。
上下文和任务复杂性：
- 模型更擅长能够用清晰提示和指令描述的任务。开放式或高度复杂的任务可能具有挑战性。
- 模型的性能可能受到提供的上下文量的影响（在一定程度上，更长的上下文通常会导致更好的输出）。
语言歧义与细微差别：自然语言本质上是复杂的，模型可能难以理解微妙的细微差别、讽刺或比喻语言。
事实准确性：模型根据从训练数据集中学习到的信息生成响应，但它们不是知识库，可能会生成不正确或过时的事实陈述。
常识：模型依赖于语言中的统计模式，可能在某些情况下缺乏应用常识推理的能力。

伦理考虑和风险

视觉语言模型（VLM）的开发引发了一些伦理问题。在创建开源模型时，我们仔细考虑了以下方面：

偏差和公平性：在大规模真实世界文本和图像数据上训练的VLM可能反映训练材料中嵌入的社会文化偏差。这些模型经过了仔细审查、输入数据预处理，并在本卡片中报告了后续评估结果。
错误信息和滥用：VLM可能被滥用来生成虚假、误导或有害的文本。提供了负责任使用模型的指南，见[负责任的生成式AI工具包][rai-toolkit]。
透明度和问责制：本模型卡片总结了模型的架构、能力、限制和评估过程的详细信息。负责任开发的开源模型为整个AI生态系统的开发者和研究人员提供了共享创新和使用VLM技术的机会。识别的风险和缓解措施：
偏差的延续：鼓励在模型训练、微调及其他用例中进行持续监测（使用评估指标、人工审查）并探索去偏技术。
有害内容的生成：内容安全机制和指南至关重要。鼓励开发者根据其特定的产品政策和应用用例谨慎行事并实施适当的内容安全保障措施。
恶意使用：技术限制以及对开发者和最终用户的教育有助于减轻VLM的恶意应用。提供了教育资源和用户举报滥用行为的机制。Gemma模型的禁止使用情况在[Gemma禁止使用政策][prohibited-use]中列出。
隐私侵犯：模型在经过过滤以去除某些个人信息和其他敏感数据的数据集上进行训练。鼓励开发者遵守隐私法规并采用隐私保护技术。

📄 许可证

本项目使用的许可证为gemma。

要在Hugging Face上访问Gemma，您需要审查并同意Google的使用许可。为此，请确保您已登录Hugging Face并点击下方按钮。请求将立即处理。 [确认许可](Acknowledge license)

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

资源和技术文档

[Gemma 3技术报告][g3-tech-report]
[负责任的生成式AI工具包][rai-toolkit]
[Kaggle上的Gemma][kaggle-gemma]
[Vertex模型花园中的Gemma 3][vertex-mg-gemma3]

使用条款

[条款][terms]

作者

Google DeepMind

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库