Gemma 3開源多模態模型 - 免費使用，支持圖文輸入生成文本內容

首頁

Gemma 3 4b It Qat Q4 0 Unquantized

由google開發

Gemma 3是Google推出的輕量級開源多模態模型，基於與Gemini相同技術構建，支持文本和圖像輸入並生成文本輸出。

圖像生成文本

Transformers

#多模態圖文理解 #128K長上下文 #輕量級開源

下載量 1,159

發布時間 : 4/8/2025

模型概述

Gemma 3是一個多模態模型，能夠處理文本和圖像輸入並生成文本輸出。它擁有128K的大上下文窗口，支持超過140種語言，適用於問答、摘要和推理等多種任務。

模型特點

多模態能力

支持文本和圖像輸入，能夠理解和分析圖像內容並生成相關文本輸出。

大上下文窗口

擁有128K的大上下文窗口，能夠處理更長的輸入序列。

多語言支持

支持超過140種語言，適用於全球範圍內的多語言任務。

輕量級設計

相對較小的體積使其能夠在資源有限的環境中部署，如筆記本電腦、臺式機或雲基礎設施。

量化感知訓練

使用量化感知訓練（QAT），能夠在降低內存需求的同時保持與bfloat16相似的性能。

模型能力

文本生成

圖像分析

問答

摘要

推理

代碼生成

數學問題解決

多語言處理

使用案例

問答系統

開放域問答

回答用戶提出的各種問題，提供準確的信息。

在BoolQ基準測試中，4B模型達到72.3的準確率。

文檔處理

文檔摘要

自動生成長文檔的簡潔摘要。

圖像理解

圖像描述生成

分析圖像內容並生成描述性文本。

在COCOcap基準測試中，4B模型得分為102。

教育

數學問題解答

解決各種數學問題並提供詳細步驟。

在GSM8K基準測試中，4B模型達到38.4的準確率。

🚀 Gemma 3模型卡片

Gemma 3是谷歌推出的輕量級、最先進的多模態開源模型，可處理文本和圖像輸入並生成文本輸出。該模型具有128K大上下文窗口和超140種語言的多語言支持，適用於文本生成和圖像理解等多種任務。

🚀 快速開始

本倉庫對應Gemma 3模型使用量化感知訓練（QAT）的4B 指令調優 版本。

⚠️ 重要提示

本倉庫中的檢查點是未量化的，請確保使用您喜歡的工具將其量化為Q4_0。

由於採用了QAT，該模型在顯著降低加載模型所需內存的同時，能夠保持與bfloat16相近的質量。

模型頁面：Gemma

資源和技術文檔：

使用條款：條款

作者：Google DeepMind

✨ 主要特性

多模態處理：能夠處理文本和圖像輸入，並生成文本輸出。
大上下文窗口：擁有128K的大上下文窗口，支持更長的輸入序列。
多語言支持：支持超過140種語言，具備廣泛的語言處理能力。
輕量級設計：相對較小的模型尺寸，適合在資源有限的環境中部署。
高質量表現：在多種任務和評估指標上表現出色，超越了之前的Gemma模型。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型信息

描述

Gemma是谷歌推出的一系列輕量級、最先進的開源模型，基於與Gemini模型相同的研究和技術構建。Gemma 3模型是多模態的，能夠處理文本和圖像輸入，並生成文本輸出。其預訓練和指令調優變體的權重均開源。Gemma 3具有128K的大上下文窗口，支持超過140種語言，且提供比之前版本更多的模型尺寸。該模型非常適合各種文本生成和圖像理解任務，包括問答、摘要和推理等。由於其相對較小的尺寸，它可以部署在資源有限的環境中，如筆記本電腦、臺式機或您自己的雲基礎設施，從而使更多人能夠使用最先進的AI模型，促進創新。

輸入和輸出

屬性	詳情
輸入	1. 文本字符串，如問題、提示或待總結的文檔 2. 圖像，歸一化為896 x 896分辨率，每個圖像編碼為256個標記 3. 4B、12B和27B尺寸的模型總輸入上下文為128K標記，1B尺寸的模型為32K標記
輸出	1. 針對輸入生成的文本，如問題的答案、圖像內容分析或文檔摘要 2. 總輸出上下文為8192個標記

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

模型數據

訓練數據集

這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用14萬億個標記進行訓練，12B模型使用12萬億個標記，4B模型使用4萬億個標記，1B模型使用2萬億個標記。主要組成部分如下：

網頁文檔：多樣化的網頁文本集合，確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過140種語言的內容。
代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼和理解代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和處理數學查詢。
圖像：廣泛的圖像使模型能夠執行圖像分析和視覺數據提取任務。

這些多樣化數據源的組合對於訓練一個強大的多模態模型至關重要，使其能夠處理各種不同的任務和數據格式。

數據預處理

以下是應用於訓練數據的關鍵數據清理和過濾方法：

CSAM過濾：在數據準備過程的多個階段應用嚴格的CSAM（兒童性虐待材料）過濾，以確保排除有害和非法內容。
敏感數據過濾：作為使Gemma預訓練模型安全可靠的一部分，使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
其他方法：根據我們的政策進行基於內容質量和安全性的過濾。

實現信息

硬件

Gemma使用張量處理單元（TPU）硬件（TPUv4p、TPUv5p和TPUv5e）進行訓練。訓練視覺語言模型（VLM）需要強大的計算能力。TPU專門為機器學習中常見的矩陣運算而設計，在這一領域具有以下優勢：

性能：TPU專門用於處理訓練VLM涉及的大量計算，與CPU相比，可顯著加快訓練速度。
內存：TPU通常配備大量高帶寬內存，允許在訓練期間處理大型模型和批量大小，有助於提高模型質量。
可擴展性：TPU Pod（大型TPU集群）為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。您可以在多個TPU設備上分佈訓練，以實現更快、更高效的處理。
成本效益：在許多情況下，與基於CPU的基礎設施相比，TPU可以為訓練大型模型提供更具成本效益的解決方案，尤其是考慮到更快的訓練速度節省的時間和資源。
這些優勢符合谷歌對可持續運營的承諾。

軟件

訓練使用JAX和ML Pathways進行。

JAX使研究人員能夠利用最新一代的硬件（包括TPU），更快、更高效地訓練大型模型。ML Pathways是谷歌構建能夠跨多個任務進行泛化的人工智能系統的最新成果，特別適用於基礎模型，包括此類大型語言模型。

如關於Gemini系列模型的論文所述，JAX和ML Pathways結合使用：“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練過程，極大地簡化了開發工作流程。”

評估

⚠️ 重要提示

本節中的評估對應於原始檢查點，而非QAT檢查點。

基準測試結果

這些模型針對大量不同的數據集和指標進行評估，以涵蓋文本生成的不同方面。

推理和事實性

基準測試	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEM和代碼

基準測試	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3 - 5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多語言

基準測試	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (all)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

多模態

基準測試	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

倫理與安全

評估方法

我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估，包括：

兒童安全：評估文本到文本和圖像到文本的提示，涵蓋兒童安全政策，包括兒童性虐待和剝削。
內容安全：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括騷擾、暴力和血腥內容以及仇恨言論。
代表性危害：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括偏見、刻板印象以及有害關聯或不準確信息。

除了開發階段的評估，我們還進行“保證評估”，這是我們為責任治理決策進行的“獨立”內部評估。這些評估與模型開發團隊分開進行，以提供有關發佈決策的信息。高層級的評估結果會反饋給模型團隊，但提示集不會公開，以防止過擬合併保持結果對決策的參考價值。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。

評估結果

在所有安全測試領域，與之前的Gemma模型相比，我們在兒童安全、內容安全和代表性危害等類別中看到了重大改進。所有測試均在不使用安全過濾器的情況下進行，以評估模型的能力和行為。對於文本到文本和圖像到文本，以及所有模型尺寸，模型產生的政策違規極少，並且在無根據推理方面比之前的Gemma模型表現出顯著改進。我們評估的一個侷限性是隻包括了英語提示。

使用和限制

預期用途

開源視覺語言模型（VLM）在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面，其目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。

內容創作和溝通
- 文本生成：這些模型可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取：這些模型可用於提取、解釋和總結視覺數據，用於文本通信。
研究和教育
- 自然語言處理（NLP）和VLM研究：這些模型可作為研究人員實驗VLM和NLP技術、開發算法以及推動該領域發展的基礎。
- 語言學習工具：支持交互式語言學習體驗，幫助進行語法糾正或提供寫作練習。
- 知識探索：協助研究人員探索大量文本，通過生成摘要或回答特定主題的問題。

限制

訓練數據
- 訓練數據的質量和多樣性會顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
上下文和任務複雜性
- 模型更擅長可以用清晰提示和指令描述的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響（在一定程度上，更長的上下文通常會導致更好的輸出）。
語言歧義與細微差別
- 自然語言本質上是複雜的。模型可能難以理解微妙的細微差別、諷刺或比喻語言。
事實準確性
- 模型根據從訓練數據集中學到的信息生成響應，但它們不是知識庫。它們可能會生成不正確或過時的事實陳述。
常識
- 模型依賴於語言中的統計模式。它們可能在某些情況下缺乏應用常識推理的能力。

倫理考慮和風險

視覺語言模型（VLM）的開發引發了一些倫理問題。在創建開源模型時，我們仔細考慮了以下方面：

偏差和公平性
- 在大規模真實世界文本和圖像數據上訓練的VLM可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查、輸入數據預處理，並在本卡片中報告了後續評估結果。
錯誤信息和濫用
- VLM可能被濫用來生成虛假、誤導或有害的文本。
- 提供了負責任使用模型的指南，請參閱負責任的生成式AI工具包。
透明度和問責制
- 本模型卡片總結了模型的架構、能力、限制和評估過程的詳細信息。
- 一個負責任開發的開源模型為開發者和研究人員提供了共享創新的機會，使VLM技術在整個AI生態系統中更易於獲取。

已識別的風險和緩解措施：

偏差的延續：鼓勵在模型訓練、微調及其他用例中進行持續監測（使用評估指標、人工審查）並探索去偏技術。
有害內容的生成：內容安全機制和指南至關重要。鼓勵開發者根據其特定產品政策和應用用例謹慎行事並實施適當的內容安全保障措施。
惡意用途：技術限制以及對開發者和最終用戶的教育有助於減輕VLM的惡意應用。提供了教育資源和用戶舉報濫用行為的機制。Gemma模型的禁止用途在Gemma禁止使用政策中列出。
隱私侵犯：模型在經過過濾以去除某些個人信息和其他敏感數據的數據上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。