Gemma 3-4B開源多模態模型 - 支持圖文輸入，適合資源有限環境免費部署

首頁

Gemma 3 4b It Qat Int4 Unquantized

由google開發

Gemma 3是Google推出的輕量級多模態開放模型，支持文本和圖像輸入，生成文本輸出。4B版本經過指令調優和量化感知訓練，適合資源有限環境部署。

圖像生成文本

Transformers

#多模態理解 #128K長上下文 #多語言支持

下載量 541

發布時間 : 4/9/2025

模型概述

基於Gemini技術構建的輕量級多模態模型，支持128K上下文窗口和140+種語言，適用於問答、摘要、推理等多種任務。

模型特點

多模態處理能力

支持同時處理文本和圖像輸入，實現跨模態理解與生成

量化感知訓練

採用QAT技術，可在保持質量的同時顯著降低內存需求

大上下文窗口

支持128K token的上下文長度，適合處理長文檔和複雜任務

多語言支持

訓練數據涵蓋140+種語言，具備跨語言處理能力

模型能力

文本生成

圖像內容分析

多語言處理

邏輯推理

代碼理解與生成

數學問題求解

文檔摘要

使用案例

內容生成

智能問答系統

基於文本或圖像輸入生成準確回答

在BoolQ基準測試達到82.4準確率

文檔摘要

自動生成長文檔的簡潔摘要

教育輔助

數學問題求解

解答各類數學題目並展示推理過程

在GSM8K基準測試達到82.6%準確率

編程教學

解釋代碼邏輯和生成示例代碼

在HumanEval基準測試達到48.8%準確率

視覺理解

圖像描述生成

為輸入圖像生成詳細文字描述

在COCOcap基準測試得分116

文檔信息提取

從掃描文檔中提取關鍵信息

在DocVQA基準測試達到85.6準確率

🚀 Gemma 3模型卡片

Gemma 3是谷歌推出的輕量級、最先進的多模態開源模型，能處理文本和圖像輸入並生成文本輸出。該模型具有128K大上下文窗口，支持超140種語言，適用於文本生成和圖像理解等多種任務。

🚀 快速開始

要在Hugging Face上訪問Gemma，你需要審查並同意Google的使用許可。請確保你已登錄Hugging Face，然後點擊下方按鈕。請求將立即處理。

模型頁面：Gemma
資源和技術文檔：
- [Gemma 3技術報告][g3-tech-report]
- [負責任的生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex模型花園中的Gemma 3][vertex-mg-gemma3]
使用條款：[條款][terms]
作者：Google DeepMind

✨ 主要特性

多模態處理：能夠處理文本和圖像輸入，並生成文本輸出。
大上下文窗口：擁有128K的大上下文窗口，支持處理長文本。
多語言支持：支持超過140種語言，具有廣泛的適用性。
輕量級設計：相對較小的模型尺寸，適合在資源有限的環境中部署。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

模型信息

描述：Gemma是谷歌推出的一系列輕量級、最先進的開源模型，基於與Gemini模型相同的研究和技術構建。Gemma 3模型是多模態的，能夠處理文本和圖像輸入，並生成文本輸出。預訓練和指令調優變體的權重均開源。Gemma 3具有128K的大上下文窗口，支持超過140種語言，且比之前的版本有更多的尺寸可供選擇。該模型適用於各種文本生成和圖像理解任務，包括問答、摘要和推理等。其相對較小的尺寸使其能夠在資源有限的環境中部署，如筆記本電腦、臺式機或你自己的雲基礎設施，從而使更多人能夠使用最先進的AI模型，促進創新。

輸入和輸出：

輸入	詳情
文本字符串	例如問題、提示或待總結的文檔
圖像	歸一化為896 x 896分辨率，並編碼為每個256個標記
總輸入上下文	4B、12B和27B尺寸為128K標記，1B尺寸為32K標記

輸出	詳情
生成的文本	作為對輸入的響應，如問題的答案、圖像內容的分析或文檔的摘要
總輸出上下文	8192個標記

引用：

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

模型數據

訓練數據集：這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用14萬億個標記進行訓練，12B模型使用12萬億個標記，4B模型使用4萬億個標記，1B模型使用2萬億個標記。主要組成部分包括：
- 網頁文檔：多樣化的網頁文本集合，確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過140種語言的內容。
- 代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼和理解代碼相關問題的能力。
- 數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。
- 圖像：廣泛的圖像使模型能夠執行圖像分析和視覺數據提取任務。
數據預處理：對訓練數據應用的關鍵數據清理和過濾方法包括：
- CSAM過濾：在數據準備過程的多個階段應用嚴格的CSAM（兒童性虐待材料）過濾，以確保排除有害和非法內容。
- 敏感數據過濾：作為使Gemma預訓練模型安全可靠的一部分，使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
- 其他方法：根據內容質量和安全性進行過濾，符合[我們的政策][safety-policies]。

實現信息

硬件：Gemma使用[張量處理單元（TPU）][tpu]硬件（TPUv4p、TPUv5p和TPUv5e）進行訓練。訓練視覺語言模型（VLM）需要大量的計算能力。TPU專門為機器學習中常見的矩陣運算而設計，在這一領域具有以下優勢：
- 性能：TPU專門用於處理訓練VLM涉及的大量計算，與CPU相比，可顯著加快訓練速度。
- 內存：TPU通常配備大量高帶寬內存，允許在訓練過程中處理大型模型和批量大小，有助於提高模型質量。
- 可擴展性：TPU Pod（大型TPU集群）為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。你可以在多個TPU設備上分佈訓練，以實現更快、更高效的處理。
- 成本效益：在許多情況下，與基於CPU的基礎設施相比，TPU可以為訓練大型模型提供更具成本效益的解決方案，尤其是考慮到更快的訓練速度所節省的時間和資源。
- 這些優勢符合[谷歌對可持續運營的承諾][sustainability]。
軟件：使用[JAX][jax]和[ML Pathways][ml-pathways]進行訓練。
- JAX允許研究人員利用最新一代的硬件（包括TPU），以更快、更高效地訓練大型模型。
- ML Pathways是谷歌最新的努力，旨在構建能夠跨多個任務進行泛化的人工智能系統，特別適用於基礎模型，包括此類大型語言模型。
- 如[關於Gemini系列模型的論文][gemini-2-paper]所述，JAX和ML Pathways一起使用：“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練過程，大大簡化了開發工作流程。”

評估

⚠️ 重要提示

本節中的評估對應於原始檢查點，而非QAT檢查點。

基準測試結果：這些模型針對大量不同的數據集和指標進行評估，以涵蓋文本生成的不同方面。
- 推理和事實性： | 基準測試 | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | | ---- | ---- | ---- | ---- | ---- | ---- | | [HellaSwag][hellaswag] | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 | | [BoolQ][boolq] | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 | | [PIQA][piqa] | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 | | [SocialIQA][socialiqa] | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 | | [TriviaQA][triviaqa] | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 | | [Natural Questions][naturalq] | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 | | [ARC-c][arc] | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 | | [ARC-e][arc] | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 | | [WinoGrande][winogrande] | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 | | [BIG-Bench Hard][bbh] | few-shot | 28.4 | 50.9 | 72.6 | 77.7 | | [DROP][drop] | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
- STEM和代碼： | 基準測試 | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | | ---- | ---- | ---- | ---- | ---- | | [MMLU][mmlu] | 5-shot | 59.6 | 74.5 | 78.6 | | [MMLU][mmlu] (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 | | [AGIEval][agieval] | 3 - 5-shot | 42.1 | 57.4 | 66.2 | | [MATH][math] | 4-shot | 24.2 | 43.3 | 50.0 | | [GSM8K][gsm8k] | 8-shot | 38.4 | 71.0 | 82.6 | | [GPQA][gpqa] | 5-shot | 15.0 | 25.4 | 24.3 | | [MBPP][mbpp] | 3-shot | 46.0 | 60.4 | 65.6 | | [HumanEval][humaneval] | 0-shot | 36.0 | 45.7 | 48.8 |
- 多語言： | 基準測試 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | | ---- | ---- | ---- | ---- | ---- | | [MGSM][mgsm] | 2.04 | 34.7 | 64.3 | 74.3 | | [Global-MMLU-Lite][global-mmlu-lite] | 24.9 | 57.0 | 69.4 | 75.7 | | [WMT24++][wmt24pp] (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 | | [FloRes][flores] | 29.5 | 39.2 | 46.0 | 48.8 | | [XQuAD][xquad] (all) | 43.9 | 68.0 | 74.5 | 76.8 | | [ECLeKTic][eclektic] | 4.69 | 11.0 | 17.2 | 24.4 | | [IndicGenBench][indicgenbench] | 41.4 | 57.2 | 61.7 | 63.4 |
- 多模態： | 基準測試 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B | | ---- | ---- | ---- | ---- | | [COCOcap][coco-cap] | 102 | 111 | 116 | | [DocVQA][docvqa] (val) | 72.8 | 82.3 | 85.6 | | [InfoVQA][info-vqa] (val) | 44.1 | 54.8 | 59.4 | | [MMMU][mmmu] (pt) | 39.2 | 50.3 | 56.1 | | [TextVQA][textvqa] (val) | 58.9 | 66.5 | 68.6 | | [RealWorldQA][realworldqa] | 45.5 | 52.2 | 53.9 | | [ReMI][remi] | 27.3 | 38.5 | 44.8 | | [AI2D][ai2d] | 63.2 | 75.2 | 79.0 | | [ChartQA][chartqa] | 63.6 | 74.7 | 76.3 | | [VQAv2][vqav2] | 63.9 | 71.2 | 72.9 | | [BLINK][blinkvqa] | 38.0 | 35.9 | 39.6 | | [OKVQA][okvqa] | 51.0 | 58.7 | 60.2 | | [TallyQA][tallyqa] | 42.5 | 51.8 | 54.3 | | [SpatialSense VQA][ss-vqa] | 50.9 | 60.0 | 59.4 | | [CountBenchQA][countbenchqa] | 26.1 | 17.8 | 68.0 |

倫理與安全

評估方法：我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估，包括：
- 兒童安全：評估文本到文本和圖像到文本的提示，涵蓋兒童安全政策，包括兒童性虐待和剝削。
- 內容安全：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括偏見、刻板印象以及有害關聯或不準確信息。
- 除了開發階段的評估，我們還進行“保證評估”，這是我們獨立的內部評估，用於責任治理決策。這些評估與模型開發團隊分開進行，以提供有關發佈的決策信息。高級別發現會反饋給模型團隊，但提示集不會公開，以防止過擬合併保留結果對決策的參考價值。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果：在所有安全測試領域，相對於之前的Gemma模型，我們在兒童安全、內容安全和代表性危害類別中看到了重大改進。所有測試均在沒有安全過濾器的情況下進行，以評估模型的能力和行為。對於文本到文本和圖像到文本，以及所有模型尺寸，模型產生的政策違規最少，並且在無根據推理方面比之前的Gemma模型表現出顯著改進。我們評估的一個侷限性是隻包括英語提示。

使用和限制

預期用途：開源視覺語言模型（VLM）在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面，目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作和通信：
  - 文本生成：這些模型可用於生成創意文本格式，如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
  - 聊天機器人和對話式AI：為客戶服務、虛擬助手或交互式應用程序提供對話界面。
  - 文本摘要：生成文本語料庫、研究論文或報告的簡潔摘要。
  - 圖像數據提取：這些模型可用於提取、解釋和總結視覺數據，用於文本通信。
- 研究和教育：
  - 自然語言處理（NLP）和VLM研究：這些模型可作為研究人員試驗VLM和NLP技術、開發算法以及推動該領域發展的基礎。
  - 語言學習工具：支持交互式語言學習體驗，有助於語法糾正或提供寫作練習。
  - 知識探索：幫助研究人員通過生成摘要或回答特定主題的問題來探索大量文本。
侷限性：
- 訓練數據：
  - 訓練數據的質量和多樣性顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
  - 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性：
  - 模型更擅長可以用清晰提示和說明來構建的任務。開放式或高度複雜的任務可能具有挑戰性。
  - 模型的性能可能受到提供的上下文量的影響（在一定程度上，更長的上下文通常會導致更好的輸出）。
- 語言歧義與細微差別：自然語言本質上是複雜的，模型可能難以理解微妙的細微差別、諷刺或比喻語言。
- 事實準確性：模型根據從訓練數據集中學到的信息生成響應，但它們不是知識庫，可能會生成不正確或過時的事實陳述。
- 常識：模型依賴於語言中的統計模式，可能在某些情況下缺乏應用常識推理的能力。
倫理考慮和風險：視覺語言模型（VLM）的開發引發了一些倫理問題。在創建開源模型時，我們仔細考慮了以下方面：
- 偏差和公平性：在大規模真實世界文本和圖像數據上訓練的VLM可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查，輸入數據進行了預處理，並在本卡片中報告了後續評估結果。
- 錯誤信息和濫用：VLM可能被濫用來生成虛假、誤導或有害的文本。提供了負責任使用模型的指南，請參閱[負責任的生成式AI工具包][rai-toolkit]。
- 透明度和問責制：
  - 本模型卡片總結了模型的架構、能力、侷限性和評估過程的詳細信息。
  - 負責任開發的開源模型為AI生態系統中的開發者和研究人員提供了共享創新的機會，使VLM技術更易於獲取。
- 已識別的風險和緩解措施：
  - 偏差的延續：鼓勵在模型訓練、微調及其他用例中進行持續監測（使用評估指標、人工審查）並探索去偏技術。
  - 有害內容的生成：內容安全機制和指南至關重要。鼓勵開發者根據其特定的產品政策和應用用例謹慎行事，並實施適當的內容安全保障措施。
  - 惡意用途：技術限制以及對開發者和最終用戶的教育有助於減輕VLM的惡意應用。提供了教育資源和用戶舉報濫用的機制。Gemma模型的禁止用途在[Gemma禁止使用政策][prohibited-use]中列出。
  - 隱私侵犯：模型在經過過濾以去除某些個人信息和其他敏感數據的數據集上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。
優勢：在發佈時，與類似規模的模型相比，這個系列的模型提供了高性能的開源視覺語言模型實現，從一開始就為負責任的AI開發而設計。使用本文檔中描述的基準評估指標，這些模型已顯示出比其他類似規模的開源模型替代品更優越的性能。