Gemma 3開源多模態模型 - 免費支持圖文輸入，140+語言文本生成

首頁

Gemma 3 12b It Int4 Gguf

由gaunernst開發

Gemma 3是Google推出的輕量級多模態開放模型，支持文本和圖像輸入並生成文本輸出，具有128K大上下文窗口和140+語言支持。

圖像生成文本 #多模態理解 #128K長上下文 #低資源部署

下載量 107

發布時間 : 3/31/2025

模型概述

Gemma 3是基於Gemini技術構建的輕量級多模態模型，能夠處理文本和圖像輸入並生成文本輸出。提供預訓練和指令調優兩種變體，適用於問答、摘要、推理等多種任務。

模型特點

多模態能力

支持同時處理文本和圖像輸入，實現跨模態理解與生成

大上下文窗口

128K token的上下文窗口，支持處理長文檔和複雜任務

多語言支持

訓練數據包含140+種語言，具備多語言處理能力

高效推理

INT4量化版本顯著降低計算資源需求，適合本地部署

模型能力

文本生成

圖像理解

多語言處理

問答系統

文檔摘要

邏輯推理

代碼生成

使用案例

內容理解與生成

圖像描述生成

根據輸入圖像生成詳細的文字描述

能準確識別圖像中的物體、場景和關係

文檔摘要

對長文檔進行關鍵信息提取和總結

生成簡潔準確的摘要，保留核心信息

智能助手

多模態問答

結合圖像和文本信息回答複雜問題

能理解圖像內容並基於此回答問題

編程輔助

根據自然語言描述生成或解釋代碼

支持多種編程語言的代碼生成和理解

🚀 Gemma 3 12B 指令調優 INT4

Gemma 3 12B 指令調優 INT4 是將 QAT INT4 Flax 檢查點（來自 Kaggle）轉換為 GGUF 格式的模型，方便用戶使用。轉換腳本可在 https://github.com/gau-nernst/gemma3-int4 找到。

注意：此模型與官方在 https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b 發佈的 QAT INT4 GGUFs 不同。

以下是來自 https://huggingface.co/google/gemma-3-12b-it 的原始模型卡片內容。

🚀 快速開始

要在 Hugging Face 上訪問 Gemma，你需要查看並同意 Google 的使用許可。請確保你已登錄 Hugging Face 並點擊下方按鈕，請求將立即處理。 [確認許可](Acknowledge license)

安裝依賴

首先，安裝 transformers 庫，Gemma 3 從 transformers 4.50.0 版本開始支持。

$ pip install -U transformers

運行示例

使用 `pipeline` API 進行推理

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-12b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

對於指令調優模型，需要先使用聊天模板處理輸入，然後再傳入 pipeline。

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look! 
# Based on the image, the animal on the candy is a **turtle**. 
# You can see the shell shape and the head and legs.

在單 GPU 或多 GPU 上運行模型

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3-12b-it"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

✨ 主要特性

多模態處理：支持文本和圖像輸入，生成文本輸出，適用於各種文本生成和圖像理解任務。
大上下文窗口：擁有 128K 的大上下文窗口，支持超過 140 種語言。
輕量級設計：相對較小的模型尺寸，可在資源有限的環境（如筆記本電腦、桌面電腦或自有云基礎設施）中部署。

📦 安裝指南

安裝 `transformers` 庫

$ pip install -U transformers

💻 使用示例

基礎用法

使用 pipeline API 進行推理：

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-12b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

高級用法

在單 GPU 或多 GPU 上運行模型：

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3-12b-it"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

📚 詳細文檔

模型信息

描述

Gemma 是 Google 推出的一系列輕量級、先進的開源模型，基於與 Gemini 模型相同的研究和技術構建。Gemma 3 模型是多模態的，支持文本和圖像輸入，生成文本輸出，預訓練和指令調優變體的權重均開源。Gemma 3 具有 128K 的大上下文窗口，支持超過 140 種語言，且比之前的版本有更多尺寸可供選擇。該模型適用於各種文本生成和圖像理解任務，如問答、摘要和推理。其相對較小的尺寸使其能夠在資源有限的環境中部署，讓更多人能夠使用先進的 AI 模型，促進創新。

輸入和輸出

輸入：
- 文本字符串，如問題、提示或待摘要的文檔。
- 圖像，歸一化為 896 x 896 分辨率，每個圖像編碼為 256 個標記。
- 4B、12B 和 27B 尺寸的模型總輸入上下文為 128K 標記，1B 尺寸的模型為 32K 標記。
輸出：
- 針對輸入生成的文本，如問題的答案、圖像內容分析或文檔摘要。
- 總輸出上下文為 8192 個標記。

模型數據

訓練數據集

這些模型在包含多種來源的文本數據集上進行訓練。27B 模型使用 14 萬億標記進行訓練，12B 模型使用 12 萬億標記，4B 模型使用 4 萬億標記，1B 模型使用 2 萬億標記。主要組成部分如下：

網絡文檔：多樣化的網絡文本集合，確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過 140 種語言的內容。
代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼和理解代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和處理數學查詢。
圖像：廣泛的圖像數據使模型能夠執行圖像分析和視覺數據提取任務。

數據預處理

訓練數據應用了以下關鍵的數據清理和過濾方法：

CSAM 過濾：在數據準備過程的多個階段應用了嚴格的 CSAM（兒童性虐待材料）過濾，確保排除有害和非法內容。
敏感數據過濾：為了使 Gemma 預訓練模型安全可靠，使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
其他方法：根據內容質量和安全性，按照[我們的政策][safety-policies]進行過濾。

實現信息

硬件

Gemma 使用 [張量處理單元 (TPU)][tpu] 硬件（TPUv4p、TPUv5p 和 TPUv5e）進行訓練。訓練視覺語言模型 (VLM) 需要大量的計算能力。TPU 專門為機器學習中常見的矩陣運算而設計，在這個領域具有以下優勢：

性能：TPU 專門用於處理訓練 VLM 涉及的大量計算，與 CPU 相比可以顯著加速訓練。
內存：TPU 通常配備大量的高帶寬內存，允許在訓練過程中處理大型模型和批量大小，有助於提高模型質量。
可擴展性：TPU Pods（大型 TPU 集群）為處理大型基礎模型不斷增長的複雜性提供了可擴展的解決方案。可以在多個 TPU 設備上分佈訓練，以實現更快、更高效的處理。
成本效益：在許多情況下，與基於 CPU 的基礎設施相比，TPU 可以為訓練大型模型提供更具成本效益的解決方案，特別是考慮到由於訓練速度加快而節省的時間和資源。
這些優勢符合 [Google 的可持續運營承諾][sustainability]。

軟件

使用 [JAX][jax] 和 [ML Pathways][ml-pathways] 進行訓練。

JAX 使研究人員能夠利用最新一代的硬件（包括 TPU），更快、更高效地訓練大型模型。ML Pathways 是 Google 構建能夠跨多個任務進行泛化的人工智能系統的最新成果，特別適用於基礎模型，包括此類大型語言模型。

JAX 和 ML Pathways 的結合使用在 [關於 Gemini 模型家族的論文][gemini-2-paper] 中有描述：“Jax 和 Pathways 的‘單控制器’編程模型允許單個 Python 進程編排整個訓練過程，極大地簡化了開發工作流程。”

評估

基準測試結果

這些模型在大量不同的數據集和指標上進行了評估，以涵蓋文本生成的不同方面。

推理和事實性

基準測試	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10-shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0-shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0-shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0-shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5-shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5-shot	9.48	20.0	31.4	36.1
[ARC-c][arc]	25-shot	38.4	56.2	68.9	70.6
[ARC-e][arc]	0-shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5-shot	58.2	64.7	74.3	78.8
[BIG-Bench Hard][bbh]	few-shot	28.4	50.9	72.6	77.7
[DROP][drop]	1-shot	42.4	60.1	72.2	77.2

STEM 和代碼

基準測試	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5-shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5-shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5-shot	42.1	57.4	66.2
[MATH][math]	4-shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8-shot	38.4	71.0	82.6
[GPQA][gpqa]	5-shot	15.0	25.4	24.3
[MBPP][mbpp]	3-shot	46.0	60.4	65.6
[HumanEval][humaneval]	0-shot	36.0	45.7	48.8

多語言

基準測試	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global-MMLU-Lite][global-mmlu-lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

多模態

基準測試	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco-cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info-vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss-vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

倫理與安全

評估方法

評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估，包括：

兒童安全：評估文本到文本和圖像到文本的提示，涵蓋兒童安全政策，包括兒童性虐待和剝削。
內容安全：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括騷擾、暴力和血腥內容以及仇恨言論。
代表性危害：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括偏見、刻板印象以及有害關聯或不準確信息。

除了開發階段的評估，還進行“保證評估”，這是獨立於模型開發團隊的內部評估，用於責任治理決策。評估結果反饋給模型團隊，但提示集被保留，以防止過擬合併確保結果能夠為決策提供信息。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。

評估結果

在所有安全測試領域，相對於之前的 Gemma 模型，在兒童安全、內容安全和代表性危害類別中都有顯著改進。所有測試均在不使用安全過濾器的情況下進行，以評估模型的能力和行為。對於文本到文本和圖像到文本，以及所有模型尺寸，模型產生的政策違規最少，並且在無根據推斷方面相對於之前的 Gemma 模型表現有顯著改善。評估的一個侷限性是隻包括英語提示。

使用和侷限性

預期用途

開源視覺語言模型 (VLM) 在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面，旨在提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。

內容創作和通信：
- 文本生成：可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取：用於提取、解釋和總結視覺數據，用於文本通信。
研究和教育：
- 自然語言處理 (NLP) 和 VLM 研究：作為研究人員實驗 VLM 和 NLP 技術、開發算法和推動該領域發展的基礎。
- 語言學習工具：支持交互式語言學習體驗，幫助進行語法糾正或提供寫作練習。
- 知識探索：協助研究人員探索大量文本，通過生成摘要或回答關於特定主題的問題。

侷限性

訓練數據：
- 訓練數據的質量和多樣性顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
上下文和任務複雜性：
- 模型在能夠用清晰提示和指令描述的任務上表現更好。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響（在一定程度上，更長的上下文通常會導致更好的輸出）。
語言歧義與細微差別：自然語言本質上很複雜，模型可能難以理解微妙的細微差別、諷刺或比喻語言。
事實準確性：模型根據從訓練數據集中學習到的信息生成響應，但它們不是知識庫，可能會生成不正確或過時的事實陳述。
常識：模型依賴於語言中的統計模式，可能缺乏在某些情況下應用常識推理的能力。

倫理考慮和風險

視覺語言模型 (VLM) 的開發引發了一些倫理問題。在創建開源模型時，我們仔細考慮了以下方面：

偏差和公平性：在大規模真實世界文本和圖像數據上訓練的 VLM 可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查，輸入數據的預處理和後續評估在本卡片中有所報告。
錯誤信息和濫用：VLM 可能被濫用來生成虛假、誤導或有害的文本。提供了負責任使用模型的指南，見 [負責任生成式 AI 工具包][rai-toolkit]。
透明度和問責制：
- 本模型卡片總結了模型的架構、能力、侷限性和評估過程的詳細信息。
- 負責任開發的開源模型為整個 AI 生態系統的開發者和研究人員提供了分享創新、使用 VLM 技術的機會。

識別的風險和緩解措施：

偏差的延續：鼓勵在模型訓練、微調及其他用例中進行持續監測（使用評估指標、人工審查）並探索去偏技術。
有害內容的生成：內容安全機制和指南至關重要。鼓勵開發者根據其特定的產品政策和應用用例謹慎行事，並實施適當的內容安全保障措施。
惡意用途：技術限制以及對開發者和最終用戶的教育有助於減輕 VLM 的惡意應用。提供教育資源和報告機制，讓用戶標記濫用行為。Gemma 模型的禁止使用情況在 [Gemma 禁止使用政策][prohibited-use] 中列出。
隱私侵犯：模型在經過過濾以去除某些個人信息和其他敏感數據的數據上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。

優勢

在發佈時，與同等規模的模型相比，該系列模型提供了從頭開始為負責任的 AI 開發而設計的高性能開源視覺語言模型實現。

使用本文檔中描述的基準評估指標，這些模型已顯示出優於其他同等規模的開源模型替代方案的性能。

🔧 技術細節

模型訓練

訓練硬件：使用 [張量處理單元 (TPU)][tpu] 硬件（TPUv4p、TPUv5p 和 TPUv5e）進行訓練。
訓練軟件：使用 [JAX][jax] 和 [ML Pathways][ml-pathways] 進行訓練。

數據處理

訓練數據集：包含網絡文檔、代碼、數學和圖像等多種數據來源。
數據預處理：應用 CSAM 過濾、敏感數據過濾等方法，確保數據安全和質量。

📄 許可證

Gemma 模型的使用需遵循 Google 的使用許可，詳情請見 [Gemma 3 條款][terms]。

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫