模型概述
模型特點
模型能力
使用案例
🚀 Gemma 3 4B 指令調優 QAT AutoAWQ
Gemma 3 4B 指令調優 QAT AutoAWQ 模型是將 https://huggingface.co/google/gemma-3-4b-it-qat-q4_0-gguf 轉換為 AutoAWQ 格式和 BF16 數據類型(因此並非無損)。其視覺塔移植自 https://huggingface.co/google/gemma-3-4b-it。
以下是原始模型卡片內容。
🚀 快速開始
模型信息
Gemma 是谷歌推出的一系列輕量級、先進的開源模型,基於與 Gemini 模型相同的研究和技術構建。Gemma 3 模型為多模態模型,能夠處理文本和圖像輸入,並生成文本輸出,其預訓練版本和指令調優版本的權重均為開源。Gemma 3 擁有 128K 的大上下文窗口,支持超過 140 種語言,且提供比以往版本更多的尺寸選擇。該模型非常適合各種文本生成和圖像理解任務,包括問答、摘要生成和推理等。由於其相對較小的規模,Gemma 3 可以部署在資源有限的環境中,如筆記本電腦、臺式機或個人雲基礎設施,從而使更多人能夠使用先進的 AI 模型,促進創新發展。
輸入與輸出
- 輸入:
- 文本字符串,例如問題、提示或待總結的文檔。
- 圖像,需歸一化為 896 x 896 分辨率,並編碼為每個 256 個令牌。
- 對於 4B、12B 和 27B 尺寸的模型,總輸入上下文為 128K 個令牌;對於 1B 尺寸的模型,總輸入上下文為 32K 個令牌。
- 輸出:
- 針對輸入生成的文本,例如問題的答案、圖像內容的分析或文檔的摘要。
- 總輸出上下文為 8192 個令牌。
使用示例
以下是一些快速運行模型的代碼片段。
基礎用法
llama.cpp(僅文本)
./llama-cli -hf google/gemma-3-4b-it-qat-q4_0-gguf -p "Write a poem about the Kraken."
llama.cpp(圖像輸入)
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-4b-it-qat-q4_0-gguf -p "Describe this image." --image ~/Downloads/surprise.png
ollama(僅文本) 目前,通過 Hugging Face 使用 Ollama 運行 GGUF 文件時不支持圖像輸入。請查看 運行受限倉庫的文檔。
ollama run hf.co/google/gemma-3-4b-it-qat-q4_0-gguf
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
✨ 主要特性
- 多模態處理:能夠處理文本和圖像輸入,生成文本輸出,適用於多種任務。
- 大上下文窗口:擁有 128K 的上下文窗口,支持處理長文本。
- 多語言支持:支持超過 140 種語言,具有廣泛的適用性。
- 輕量級設計:相對較小的規模,可部署在資源有限的環境中。
📦 安裝指南
文檔未提及安裝步驟,暫不提供。
📚 詳細文檔
模型數據
訓練數據集
這些模型在包含多種來源的文本數據集上進行訓練。27B 模型使用 14 萬億個令牌進行訓練,12B 模型使用 12 萬億個令牌,4B 模型使用 4 萬億個令牌,1B 模型使用 2 萬億個令牌。主要組成部分如下:
- 網頁文檔:多樣化的網頁文本集合確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過 140 種語言的內容。
- 代碼:讓模型接觸代碼有助於其學習編程語言的語法和模式,提高生成代碼和理解代碼相關問題的能力。
- 數學內容:在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和處理數學查詢。
- 圖像:廣泛的圖像數據使模型能夠執行圖像分析和視覺數據提取任務。
這些多樣化數據源的組合對於訓練一個強大的多模態模型至關重要,該模型能夠處理各種不同的任務和數據格式。
數據預處理
以下是應用於訓練數據的主要數據清理和過濾方法:
- CSAM 過濾:在數據準備過程的多個階段應用嚴格的 CSAM(兒童性虐待材料)過濾,以確保排除有害和非法內容。
- 敏感數據過濾:作為確保 Gemma 預訓練模型安全可靠的一部分,使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
- 其他方法:根據 [我們的政策][safety-policies] 基於內容質量和安全性進行過濾。
實現信息
硬件
Gemma 使用 [張量處理單元 (TPU)][tpu] 硬件(TPUv4p、TPUv5p 和 TPUv5e)進行訓練。訓練視覺語言模型 (VLMS) 需要大量的計算能力。TPU 專門為機器學習中常見的矩陣運算而設計,在該領域具有以下優勢:
- 性能:TPU 專門用於處理訓練 VLM 涉及的大量計算。與 CPU 相比,它們可以顯著加速訓練過程。
- 內存:TPU 通常配備大量的高帶寬內存,允許在訓練過程中處理大型模型和批量大小。這有助於提高模型質量。
- 可擴展性:TPU Pod(大型 TPU 集群)為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。可以將訓練分佈在多個 TPU 設備上,以實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於 CPU 的基礎設施相比,TPU 可以為訓練大型模型提供更具成本效益的解決方案,特別是考慮到由於訓練速度加快而節省的時間和資源。
- 這些優勢符合 [谷歌對可持續運營的承諾][sustainability]。
軟件
訓練使用 [JAX][jax] 和 [ML Pathways][ml-pathways] 進行。
JAX 使研究人員能夠利用最新一代的硬件(包括 TPU)來更快、更高效地訓練大型模型。ML Pathways 是谷歌為構建能夠跨多個任務進行泛化的人工智能系統所做的最新努力。這特別適用於基礎模型,包括此類大型語言模型。
JAX 和 ML Pathways 結合使用,如 [關於 Gemini 系列模型的論文][gemini-2-paper] 所述:“Jax 和 Pathways 的‘單控制器’編程模型允許單個 Python 進程協調整個訓練過程,大大簡化了開發工作流程。”
評估
⚠️ 重要提示
本節中的評估對應於原始檢查點,而非 QAT 檢查點。
基準測試結果
這些模型在大量不同的數據集和指標上進行評估,以涵蓋文本生成的不同方面:
推理和事實性
基準測試 | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
[HellaSwag][hellaswag] | 10 次射擊 | 62.3 | 77.2 | 84.2 | 85.6 |
[BoolQ][boolq] | 0 次射擊 | 63.2 | 72.3 | 78.8 | 82.4 |
[PIQA][piqa] | 0 次射擊 | 73.8 | 79.6 | 81.8 | 83.3 |
[SocialIQA][socialiqa] | 0 次射擊 | 48.9 | 51.9 | 53.4 | 54.9 |
[TriviaQA][triviaqa] | 5 次射擊 | 39.8 | 65.8 | 78.2 | 85.5 |
[Natural Questions][naturalq] | 5 次射擊 | 9.48 | 20.0 | 31.4 | 36.1 |
[ARC-c][arc] | 25 次射擊 | 38.4 | 56.2 | 68.9 | 70.6 |
[ARC-e][arc] | 0 次射擊 | 73.0 | 82.4 | 88.3 | 89.0 |
[WinoGrande][winogrande] | 5 次射擊 | 58.2 | 64.7 | 74.3 | 78.8 |
[BIG-Bench Hard][bbh] | 少次射擊 | 28.4 | 50.9 | 72.6 | 77.7 |
[DROP][drop] | 1 次射擊 | 42.4 | 60.1 | 72.2 | 77.2 |
STEM 和代碼
基準測試 | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MMLU][mmlu] | 5 次射擊 | 59.6 | 74.5 | 78.6 |
[MMLU][mmlu] (Pro COT) | 5 次射擊 | 29.2 | 45.3 | 52.2 |
[AGIEval][agieval] | 3 - 5 次射擊 | 42.1 | 57.4 | 66.2 |
[MATH][math] | 4 次射擊 | 24.2 | 43.3 | 50.0 |
[GSM8K][gsm8k] | 8 次射擊 | 38.4 | 71.0 | 82.6 |
[GPQA][gpqa] | 5 次射擊 | 15.0 | 25.4 | 24.3 |
[MBPP][mbpp] | 3 次射擊 | 46.0 | 60.4 | 65.6 |
[HumanEval][humaneval] | 0 次射擊 | 36.0 | 45.7 | 48.8 |
多語言
基準測試 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MGSM][mgsm] | 2.04 | 34.7 | 64.3 | 74.3 |
[Global-MMLU-Lite][global-mmlu-lite] | 24.9 | 57.0 | 69.4 | 75.7 |
[WMT24++][wmt24pp] (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
[FloRes][flores] | 29.5 | 39.2 | 46.0 | 48.8 |
[XQuAD][xquad] (all) | 43.9 | 68.0 | 74.5 | 76.8 |
[ECLeKTic][eclektic] | 4.69 | 11.0 | 17.2 | 24.4 |
[IndicGenBench][indicgenbench] | 41.4 | 57.2 | 61.7 | 63.4 |
多模態
基準測試 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
[COCOcap][coco-cap] | 102 | 111 | 116 |
[DocVQA][docvqa] (val) | 72.8 | 82.3 | 85.6 |
[InfoVQA][info-vqa] (val) | 44.1 | 54.8 | 59.4 |
[MMMU][mmmu] (pt) | 39.2 | 50.3 | 56.1 |
[TextVQA][textvqa] (val) | 58.9 | 66.5 | 68.6 |
[RealWorldQA][realworldqa] | 45.5 | 52.2 | 53.9 |
[ReMI][remi] | 27.3 | 38.5 | 44.8 |
[AI2D][ai2d] | 63.2 | 75.2 | 79.0 |
[ChartQA][chartqa] | 63.6 | 74.7 | 76.3 |
[VQAv2][vqav2] | 63.9 | 71.2 | 72.9 |
[BLINK][blinkvqa] | 38.0 | 35.9 | 39.6 |
[OKVQA][okvqa] | 51.0 | 58.7 | 60.2 |
[TallyQA][tallyqa] | 42.5 | 51.8 | 54.3 |
[SpatialSense VQA][ss-vqa] | 50.9 | 60.0 | 59.4 |
[CountBenchQA][countbenchqa] | 26.1 | 17.8 | 68.0 |
倫理與安全
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估,包括:
- 兒童安全:評估文本到文本和圖像到文本的提示,涵蓋兒童安全政策,包括兒童性虐待和剝削。
- 內容安全:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性傷害:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括偏見、刻板印象和有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們用於責任治理決策的“獨立”內部評估。這些評估與模型開發團隊分開進行,為發佈決策提供信息。高級別發現會反饋給模型團隊,但提示集不會公開,以防止過擬合併確保結果能夠為決策提供有效信息。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果
在所有安全測試領域,與之前的 Gemma 模型相比,我們在兒童安全、內容安全和代表性傷害等類別中看到了重大改進。所有測試均在不使用安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本和圖像到文本,以及所有模型尺寸,模型產生的政策違規極少,並且在無根據推理方面比之前的 Gemma 模型表現出顯著改進。我們評估的一個侷限性是隻包括英語提示。
使用和侷限性
預期用途
開源視覺語言模型 (VLMs) 在各個行業和領域有廣泛的應用。以下潛在用途列表並非詳盡無遺。此列表的目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作和通信
- 文本生成:這些模型可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI:為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取:這些模型可用於提取、解釋和總結視覺數據,用於文本通信。
- 研究和教育
- 自然語言處理 (NLP) 和 VLM 研究:這些模型可以作為研究人員試驗 VLM 和 NLP 技術、開發算法和推動該領域發展的基礎。
- 語言學習工具:支持交互式語言學習體驗,幫助進行語法糾正或提供寫作練習。
- 知識探索:通過生成摘要或回答特定主題的問題,幫助研究人員探索大量文本。
侷限性
- 訓練數據
- 訓練數據的質量和多樣性顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性
- 模型更擅長可以用清晰提示和說明描述的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響(在一定範圍內,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別
- 自然語言本質上是複雜的。模型可能難以理解微妙的細微差別、諷刺或比喻語言。
- 事實準確性
- 模型根據從訓練數據集中學到的信息生成響應,但它們不是知識庫。它們可能會生成不正確或過時的事實陳述。
- 常識
- 模型依賴於語言中的統計模式。它們可能缺乏應用常識推理的能力。
🔧 技術細節
模型相關信息
屬性 | 詳情 |
---|---|
基礎模型 | google/gemma-3-4b-it |
許可證 | gemma |
標籤 | gemma3、gemma、google |
任務類型 | image-text-to-text |
模型頁面
資源和技術文檔
- [Gemma 3 技術報告][g3-tech-report]
- [負責任的生成式 AI 工具包][rai-toolkit]
- [Kaggle 上的 Gemma][kaggle-gemma]
- [Vertex 模型花園中的 Gemma][vertex-mg-gemma3]
使用條款
[條款][terms]
作者
Google DeepMind
📄 許可證
文檔提及許可證為 gemma
,但未提供更多詳細信息。








