Gemma 3-12b-it-int4-awq開源模型 - 支持圖文輸入輸出的多模態輕量級工具

首頁

Gemma 3 12b It Int4 Awq

由gaunernst開發

Gemma是谷歌推出的輕量級尖端開源模型家族，基於與Gemini模型相同的研究技術構建。Gemma 3為多模態模型，支持文本/圖像輸入與文本輸出。

圖像生成文本

Transformers

#多模態理解 #128K長上下文 #輕量級部署

下載量 4,658

發布時間 : 3/18/2025

模型概述

Gemma 3是多模態模型，支持文本和圖像輸入，生成文本輸出。提供預訓練和指令調優兩種權重版本，適合問答、摘要、推理等文本生成與圖像理解任務。

模型特點

多模態支持

支持文本和圖像輸入，生成文本輸出，能夠進行圖像理解和分析。

超大上下文窗口

支持128K tokens的上下文窗口，適合處理長文檔和複雜任務。

多語言支持

支持140+種語言，具備廣泛的語言理解和生成能力。

輕量級設計

緊湊體積使其可部署於筆記本/臺式機等資源受限環境。

模型能力

文本生成

圖像分析

多語言處理

問答系統

文檔摘要

邏輯推理

使用案例

內容創作

圖像描述生成

根據輸入的圖像生成詳細的文字描述。

示例：糖果上的動物是**烏龜**，可見其殼狀輪廓和頭足部

文檔摘要

對長文檔進行自動摘要，提取關鍵信息。

教育研究

多語言學習

支持多種語言的翻譯和學習輔助。

編程輔助

幫助理解和生成編程代碼。

🚀 Gemma 3 12B 指令調優 INT4

這是從 Kaggle 獲取的 QAT INT4 Flax 檢查點，已轉換為 HF+AWQ 格式，方便使用。AWQ 未用於量化。你可以在這個模型倉庫中找到轉換腳本 convert_flax.py。

注意：這與官方在此處發佈的 QAT INT4 GGUFs 不同：https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b

以下是來自 https://huggingface.co/google/gemma-3-12b-it 的原始模型卡片內容。

🚀 快速開始

訪問權限

要在 Hugging Face 上訪問 Gemma，你需要查看並同意 Google 的使用許可。為此，請確保你已登錄 Hugging Face 並點擊下方按鈕。請求將立即處理。

按鈕內容：確認許可

模型使用

這是從 Kaggle 獲取的 QAT INT4 Flax 檢查點，已轉換為 HF+AWQ 格式，方便使用。AWQ 未用於量化。你可以在這個模型倉庫中找到轉換腳本 convert_flax.py。

請注意，這與官方在此處發佈的 QAT INT4 GGUFs 不同。

✨ 主要特性

模型概述

Gemma 是 Google 推出的一系列輕量級、先進的開放模型，基於與創建 Gemini 模型相同的研究和技術構建。Gemma 3 模型是多模態的，能夠處理文本和圖像輸入，並生成文本輸出。預訓練變體和指令調優變體的權重都是開放的。

特性亮點

多模態處理：支持文本和圖像輸入，生成文本輸出。
大上下文窗口：擁有 128K 的大上下文窗口。
多語言支持：支持超過 140 種語言。
多種尺寸可選：比之前的版本提供更多尺寸選擇。
廣泛適用性：適用於各種文本生成和圖像理解任務，如問答、摘要和推理。
資源友好：相對較小的尺寸使其能夠在資源有限的環境中部署，如筆記本電腦、臺式機或你自己的雲基礎設施。

📦 安裝指南

安裝 Transformers 庫

首先，安裝適用於 Gemma 3 的特定版本的 Transformers 庫：

$ pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

💻 使用示例

基礎用法

使用 `pipeline` API 進行推理

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-12b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

對於經過指令調優的模型，你需要先使用聊天模板處理輸入，然後將其傳遞給管道：

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0][0]["generated_text"][-1]["content"])
# Okay, let's take a look! 
# Based on the image, the animal on the candy is a **turtle**. 
# You can see the shell shape and the head and legs.

在單 GPU 或多 GPU 上運行模型

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3-12b-it"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

📚 詳細文檔

模型信息

描述

Gemma 是 Google 推出的輕量級、先進的開放模型家族，基於與創建 Gemini 模型相同的研究和技術構建。Gemma 3 模型是多模態的，能夠處理文本和圖像輸入，並生成文本輸出。預訓練變體和指令調優變體的權重都是開放的。

輸入和輸出

輸入：
- 文本字符串，如問題、提示或待總結的文檔。
- 圖像，歸一化為 896 x 896 分辨率，每個圖像編碼為 256 個標記。
- 4B、12B 和 27B 尺寸的模型總輸入上下文為 128K 標記，1B 尺寸的模型為 32K 標記。
輸出：
- 針對輸入生成的文本，如問題的答案、圖像內容的分析或文檔的摘要。
- 總輸出上下文為 8192 個標記。

模型數據

訓練數據集

這些模型在包含多種來源的文本數據集上進行訓練。27B 模型使用 14 萬億個標記進行訓練，12B 模型使用 12 萬億個標記，4B 模型使用 4 萬億個標記，1B 模型使用 2 萬億個標記。主要組成部分如下：

網絡文檔：多樣化的網絡文本集合，確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過 140 種語言的內容。
代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼和理解代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和處理數學查詢。
圖像：廣泛的圖像使模型能夠執行圖像分析和視覺數據提取任務。

數據預處理

對訓練數據應用了以下關鍵的數據清理和過濾方法：

CSAM 過濾：在數據準備過程的多個階段應用了嚴格的 CSAM（兒童性虐待材料）過濾，以確保排除有害和非法內容。
敏感數據過濾：作為使 Gemma 預訓練模型安全可靠的一部分，使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
其他方法：根據內容質量和安全性進行過濾，符合我們的政策。

實現信息

硬件

Gemma 使用張量處理單元 (TPU) 硬件（TPUv4p、TPUv5p 和 TPUv5e）進行訓練。訓練視覺語言模型 (VLM) 需要大量的計算能力。TPU 專門為機器學習中常見的矩陣運算而設計，在這一領域具有以下優勢：

性能：TPU 專門用於處理訓練 VLM 涉及的大量計算，與 CPU 相比，可顯著加快訓練速度。
內存：TPU 通常配備大量高帶寬內存，允許在訓練過程中處理大型模型和批量大小，有助於提高模型質量。
可擴展性：TPU Pods（大型 TPU 集群）為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。你可以在多個 TPU 設備上分佈訓練，以實現更快、更高效的處理。
成本效益：在許多情況下，與基於 CPU 的基礎設施相比，TPU 可以為訓練大型模型提供更具成本效益的解決方案，特別是考慮到更快的訓練速度節省的時間和資源。
這些優勢符合 Google 的可持續運營承諾。

軟件

使用 JAX 和 ML Pathways 進行訓練。

JAX 允許研究人員利用最新一代的硬件（包括 TPU），以更快、更高效地訓練大型模型。ML Pathways 是 Google 最新的努力，旨在構建能夠跨多個任務進行泛化的人工智能系統，特別適用於基礎模型，包括此類大型語言模型。

評估

基準測試結果

這些模型在大量不同的數據集和指標上進行評估，以涵蓋文本生成的各個方面：

基準測試	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEM 和代碼相關基準測試

基準測試	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3 - 5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多語言基準測試

基準測試	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (all)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

多模態基準測試

基準測試	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

倫理與安全

評估方法

評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同團隊進行，每個團隊有不同的目標和人工評估指標。這些模型在與倫理和安全相關的多個類別上進行評估，包括：

兒童安全：評估文本到文本和圖像到文本的提示，涵蓋兒童安全政策，包括兒童性虐待和剝削。
內容安全：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括騷擾、暴力和血腥內容以及仇恨言論。
代表性危害：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括偏見、刻板印象和有害關聯或不準確信息。

除了開發階段的評估，還進行“保證評估”，這是我們獨立的內部評估，用於責任治理決策。這些評估與模型開發團隊分開進行，為發佈決策提供信息。高級別結果反饋給模型團隊，但提示集被保留，以防止過擬合併保持結果為決策提供信息的能力。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。

評估結果

在所有安全測試領域，與之前的 Gemma 模型相比，在兒童安全、內容安全和代表性危害類別上都有重大改進。所有測試均在沒有安全過濾器的情況下進行，以評估模型的能力和行為。對於文本到文本和圖像到文本，以及所有模型尺寸，模型產生的政策違規最少，並且在無根據推斷方面比之前的 Gemma 模型表現出顯著改進。評估的一個侷限性是隻包括英語提示。

使用與限制

預期用途

開放視覺語言模型 (VLM) 在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面，目的是提供模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。

內容創作與溝通：
- 文本生成：可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取：用於提取、解釋和總結視覺數據，用於文本通信。
研究與教育：
- 自然語言處理 (NLP) 和 VLM 研究：可作為研究人員實驗 VLM 和 NLP 技術、開發算法和推動該領域發展的基礎。
- 語言學習工具：支持交互式語言學習體驗，幫助進行語法糾正或提供寫作練習。
- 知識探索：幫助研究人員探索大量文本，通過生成摘要或回答特定主題的問題。

侷限性

訓練數據：
- 訓練數據的質量和多樣性顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
上下文和任務複雜性：
- 模型更擅長可以用清晰提示和指令描述的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響（在一定程度上，更長的上下文通常會導致更好的輸出）。
語言歧義與細微差別：自然語言本質上是複雜的，模型可能難以理解微妙的細微差別、諷刺或比喻語言。
事實準確性：模型根據從訓練數據集中學習到的信息生成響應，但它們不是知識庫，可能會生成不正確或過時的事實陳述。
常識：模型依賴於語言中的統計模式，可能在某些情況下缺乏應用常識推理的能力。

倫理考慮與風險

視覺語言模型 (VLM) 的開發引發了一些倫理問題。在創建開放模型時，我們仔細考慮了以下方面：

偏差與公平性：在大規模真實世界文本和圖像數據上訓練的 VLM 可能反映訓練材料中嵌入的社會文化偏差。這些模型經過仔細審查，輸入數據進行了預處理，並在本卡片中報告了後續評估結果。
錯誤信息與濫用：VLM 可能被濫用來生成虛假、誤導或有害的文本。提供了負責任使用模型的指南，請參閱負責任生成式 AI 工具包。
透明度與問責制：本模型卡片總結了模型的架構、能力、侷限性和評估過程的詳細信息。負責任開發的開放模型為 AI 生態系統中的開發者和研究人員提供了共享創新和使用 VLM 技術的機會。

風險識別與緩解措施

偏差的延續：鼓勵在模型訓練、微調及其他用例中進行持續監測（使用評估指標、人工審查）並探索去偏技術。
有害內容的生成：內容安全機制和指南至關重要。鼓勵開發者謹慎行事，並根據其特定產品政策和應用用例實施適當的內容安全保障措施。
惡意用途：技術限制以及對開發者和最終用戶的教育有助於減輕 VLM 的惡意應用。提供教育資源和用戶舉報濫用的機制。Gemma 模型的禁止用途在 Gemma 禁止使用政策中列出。
隱私侵犯：模型在經過過濾以去除某些個人信息和其他敏感數據的數據上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。

優勢

在發佈時，與類似規模的模型相比，這個模型家族提供了高性能的開放視覺語言模型實現，從一開始就為負責任的 AI 開發而設計。

使用本文檔中描述的基準評估指標，這些模型表現出優於其他類似規模開放模型替代方案的性能。

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

📄 許可證

本模型的許可證為 gemma。要在 Hugging Face 上訪問 Gemma，你需要查看並同意 Google 的使用許可。請確保你已登錄 Hugging Face 並點擊下方按鈕以確認許可。請求將立即處理。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Gemma 3 12b It Int4 Awq

模型概述

模型特點

模型能力

使用案例

🚀 Gemma 3 12B 指令調優 INT4

🚀 快速開始

訪問權限

模型使用

✨ 主要特性

模型概述

特性亮點

📦 安裝指南

安裝 Transformers 庫

💻 使用示例

基礎用法

使用 pipeline API 進行推理

在單 GPU 或多 GPU 上運行模型

📚 詳細文檔

模型信息

描述

輸入和輸出

模型數據

訓練數據集

數據預處理

實現信息

硬件

軟件

評估

基準測試結果

STEM 和代碼相關基準測試

多語言基準測試

多模態基準測試

倫理與安全

評估方法

評估結果

使用與限制

預期用途

侷限性

倫理考慮與風險

風險識別與緩解措施

優勢

引用

📄 許可證

使用 `pipeline` API 進行推理