Gemma 3開源輕量級大語言模型 - 4B參數W4A16量化版，降低硬件部署門檻

首頁

Gemma 3 4b It Quantized W4A16

由abhishekchohan開發

Gemma 3是Google開發的輕量級開源大語言模型，本倉庫提供其4B參數版本的W4A16量化模型，顯著降低硬件需求。

大型語言模型

Transformers

#W4A16量化 #指令調優 #消費級部署

下載量 592

發布時間 : 3/17/2025

模型概述

基於Gemma 3指令調優模型的4位權重量化版本，適用於消費級硬件部署，保持良好性能的同時減少內存佔用。

模型特點

高效量化

採用W4A16量化技術，權重量化至4位精度，激活值保持16位精度，顯著降低內存需求。

指令調優

經過指令調優優化，能更好地理解和執行自然語言指令。

消費級硬件適配

量化後模型更適合在消費級GPU和CPU上運行，降低部署門檻。

模型能力

自然語言理解

文本生成

指令執行

對話交互

使用案例

智能助手

聊天機器人

構建響應迅速、理解力強的對話系統

流暢自然的對話體驗

內容生成

文本創作

輔助寫作、內容摘要等任務

高質量文本輸出

🚀 Gemma 3 量化模型

本倉庫包含谷歌 Gemma 3 指令微調模型的 W4A16 量化版本，在保持良好性能的同時，使這些模型更易於在消費級硬件上部署。

✨ 主要特性

提供了谷歌 Gemma 3 指令微調模型的量化版本，降低了對硬件的要求，便於在消費級設備上使用。
採用 W4A16 量化方式，在減少內存需求的同時，維持了較好的性能。

📦 安裝指南

暫未提供安裝步驟相關內容，可根據實際使用的框架和環境進行安裝。

💻 使用示例

基礎用法

使用 vLLM 運行模型的示例命令如下：

vllm serve abhishekchohan/gemma-3-{size}-it-quantized-W4A16 --chat-template templates/chat_template.jinja --enable-auto-tool-choice --tool-call-parser gemma --tool-parser-plugin tools/tool_parser.py

📚 詳細文檔

模型列表

abhishekchohan/gemma-3-27b-it-quantized-W4A16
abhishekchohan/gemma-3-12b-it-quantized-W4A16
abhishekchohan/gemma-3-4b-it-quantized-W4A16

倉庫結構

gemma-3-{size}-it-quantized-W4A16/
├── README.md
├── templates/
│   └── chat_template.jinja
├── tools/
│   └── tool_parser.py
└── [model files]

量化細節

這些模型通過 LLM Compressor 使用 W4A16 量化：

權重量化為 4 位精度
激活值使用 16 位精度
顯著降低了內存需求

🔧 技術細節

本倉庫中的模型採用了 W4A16 量化技術，通過 LLM Compressor 工具實現。這種量化方式將模型的權重量化為 4 位精度，而激活值使用 16 位精度，在保證模型性能的前提下，大幅減少了內存需求，使得模型能夠在消費級硬件上更輕鬆地部署。

📄 許可證

這些模型遵循 Gemma 許可證。用戶在使用模型之前，必須確認並接受許可證條款。

📚 引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

⚠️ 重要提示

要在 Hugging Face 上訪問 Gemma，您需要查看並同意 Google 的使用許可。為此，請確保您已登錄 Hugging Face 並點擊下方按鈕。請求將立即處理。

💡 使用建議

在使用這些量化模型時，可根據自身硬件條件選擇合適的模型大小，以獲得最佳的性能和體驗。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫