🚀 Gemma 3模型卡片
Gemma 3是谷歌推出的輕量級、最先進的開源模型家族,基於與Gemini模型相同的研究和技術構建。它具有多模態處理能力,支持140多種語言,適用於文本生成和圖像理解等多種任務。
🚀 快速開始
本倉庫對應Gemma 3模型使用量化感知訓練(QAT)的1B 指令微調 版本。
[!Note]
本倉庫中的檢查點未量化,請確保使用您喜歡的工具將其量化為int4。
得益於QAT,該模型能夠在顯著降低加載模型的內存需求的同時,保持與bfloat16
相似的質量。
模型頁面:Gemma
資源和技術文檔:
使用條款:條款
作者:Google DeepMind
✨ 主要特性
- 多模態處理:能夠處理文本和圖像輸入,並生成文本輸出。
- 大上下文窗口:擁有128K的大上下文窗口,支持處理長文本。
- 多語言支持:支持超過140種語言,適用於全球用戶。
- 輕量級設計:相對較小的模型尺寸,可在資源有限的環境中部署。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型信息
描述
Gemma是谷歌推出的輕量級、最先進的開源模型家族,基於與Gemini模型相同的研究和技術構建。Gemma 3模型是多模態的,能夠處理文本和圖像輸入,並生成文本輸出。預訓練和指令微調變體的權重均開源。Gemma 3具有128K的大上下文窗口,支持超過140種語言,且提供比以前版本更多的尺寸選擇。該模型適用於各種文本生成和圖像理解任務,包括問答、摘要和推理。其相對較小的尺寸使其能夠在筆記本電腦、臺式機或自有云基礎設施等資源有限的環境中部署,使更多人能夠使用最先進的AI模型,促進創新。
輸入和輸出
- 輸入:
- 文本字符串,如問題、提示或待摘要的文檔。
- 圖像,歸一化為896 x 896分辨率,並編碼為每個256個標記。
- 4B、12B和27B尺寸的總輸入上下文為128K標記,1B尺寸為32K標記。
- 輸出:
- 對輸入的生成文本響應,如問題的答案、圖像內容分析或文檔摘要。
- 總輸出上下文為8192個標記。
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
模型數據
訓練數據集
這些模型在包含各種來源的文本數據集上進行訓練。27B模型使用14萬億個標記進行訓練,12B模型使用12萬億個標記,4B模型使用4萬億個標記,1B模型使用2萬億個標記。主要組成部分如下:
- 網頁文檔:多樣化的網頁文本集合,確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過140種語言的內容。
- 代碼:讓模型接觸代碼有助於學習編程語言的語法和模式,提高生成代碼和理解代碼相關問題的能力。
- 數學:在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。
- 圖像:廣泛的圖像使模型能夠執行圖像分析和視覺數據提取任務。
這些多樣化數據源的組合對於訓練能夠處理各種不同任務和數據格式的強大多模態模型至關重要。
數據預處理
以下是應用於訓練數據的關鍵數據清理和過濾方法:
- CSAM過濾:在數據準備過程的多個階段應用嚴格的CSAM(兒童性虐待材料)過濾,以確保排除有害和非法內容。
- 敏感數據過濾:作為使Gemma預訓練模型安全可靠的一部分,使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
- 其他方法:根據內容質量和安全性進行過濾,符合我們的政策。
實現信息
硬件
Gemma使用張量處理單元(TPU)硬件(TPUv4p、TPUv5p和TPUv5e)進行訓練。訓練視覺語言模型(VLM)需要大量的計算能力。TPU專門為機器學習中常見的矩陣運算而設計,在該領域具有以下優勢:
- 性能:TPU專門用於處理訓練VLM涉及的大量計算,與CPU相比,可顯著加快訓練速度。
- 內存:TPU通常配備大量高帶寬內存,允許在訓練期間處理大型模型和批量大小,有助於提高模型質量。
- 可擴展性:TPU Pod(大型TPU集群)為處理大型基礎模型不斷增長的複雜性提供了可擴展的解決方案。可以在多個TPU設備上分佈訓練,以實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於CPU的基礎設施相比,TPU可以為訓練大型模型提供更具成本效益的解決方案,特別是考慮到更快的訓練速度節省的時間和資源。
- 這些優勢符合谷歌的可持續運營承諾。
軟件
訓練使用JAX和ML Pathways進行。
JAX允許研究人員利用最新一代的硬件(包括TPU),以更快、更高效地訓練大型模型。ML Pathways是谷歌構建能夠跨多個任務進行泛化的人工智能系統的最新努力,特別適用於基礎模型,包括此類大型語言模型。
如關於Gemini模型家族的論文所述,JAX和ML Pathways一起使用:“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練運行,大大簡化了開發工作流程。”
評估
[!Note]
本節中的評估對應於原始檢查點,而非QAT檢查點。
基準測試結果
這些模型針對大量不同的數據集和指標進行評估,以涵蓋文本生成的不同方面:
推理和事實性
基準測試 |
指標 |
Gemma 3 PT 1B |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[HellaSwag][hellaswag] |
10-shot |
62.3 |
77.2 |
84.2 |
85.6 |
[BoolQ][boolq] |
0-shot |
63.2 |
72.3 |
78.8 |
82.4 |
[PIQA][piqa] |
0-shot |
73.8 |
79.6 |
81.8 |
83.3 |
[SocialIQA][socialiqa] |
0-shot |
48.9 |
51.9 |
53.4 |
54.9 |
[TriviaQA][triviaqa] |
5-shot |
39.8 |
65.8 |
78.2 |
85.5 |
[Natural Questions][naturalq] |
5-shot |
9.48 |
20.0 |
31.4 |
36.1 |
[ARC-c][arc] |
25-shot |
38.4 |
56.2 |
68.9 |
70.6 |
[ARC-e][arc] |
0-shot |
73.0 |
82.4 |
88.3 |
89.0 |
[WinoGrande][winogrande] |
5-shot |
58.2 |
64.7 |
74.3 |
78.8 |
[BIG-Bench Hard][bbh] |
few-shot |
28.4 |
50.9 |
72.6 |
77.7 |
[DROP][drop] |
1-shot |
42.4 |
60.1 |
72.2 |
77.2 |
STEM和代碼
基準測試 |
指標 |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[MMLU][mmlu] |
5-shot |
59.6 |
74.5 |
78.6 |
[MMLU][mmlu] (Pro COT) |
5-shot |
29.2 |
45.3 |
52.2 |
[AGIEval][agieval] |
3 - 5-shot |
42.1 |
57.4 |
66.2 |
[MATH][math] |
4-shot |
24.2 |
43.3 |
50.0 |
[GSM8K][gsm8k] |
8-shot |
38.4 |
71.0 |
82.6 |
[GPQA][gpqa] |
5-shot |
15.0 |
25.4 |
24.3 |
[MBPP][mbpp] |
3-shot |
46.0 |
60.4 |
65.6 |
[HumanEval][humaneval] |
0-shot |
36.0 |
45.7 |
48.8 |
多語言
基準測試 |
Gemma 3 PT 1B |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[MGSM][mgsm] |
2.04 |
34.7 |
64.3 |
74.3 |
[Global-MMLU-Lite][global-mmlu-lite] |
24.9 |
57.0 |
69.4 |
75.7 |
[WMT24++][wmt24pp] (ChrF) |
36.7 |
48.4 |
53.9 |
55.7 |
[FloRes][flores] |
29.5 |
39.2 |
46.0 |
48.8 |
[XQuAD][xquad] (all) |
43.9 |
68.0 |
74.5 |
76.8 |
[ECLeKTic][eclektic] |
4.69 |
11.0 |
17.2 |
24.4 |
[IndicGenBench][indicgenbench] |
41.4 |
57.2 |
61.7 |
63.4 |
多模態
基準測試 |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[COCOcap][coco-cap] |
102 |
111 |
116 |
[DocVQA][docvqa] (val) |
72.8 |
82.3 |
85.6 |
[InfoVQA][info-vqa] (val) |
44.1 |
54.8 |
59.4 |
[MMMU][mmmu] (pt) |
39.2 |
50.3 |
56.1 |
[TextVQA][textvqa] (val) |
58.9 |
66.5 |
68.6 |
[RealWorldQA][realworldqa] |
45.5 |
52.2 |
53.9 |
[ReMI][remi] |
27.3 |
38.5 |
44.8 |
[AI2D][ai2d] |
63.2 |
75.2 |
79.0 |
[ChartQA][chartqa] |
63.6 |
74.7 |
76.3 |
[VQAv2][vqav2] |
63.9 |
71.2 |
72.9 |
[BLINK][blinkvqa] |
38.0 |
35.9 |
39.6 |
[OKVQA][okvqa] |
51.0 |
58.7 |
60.2 |
[TallyQA][tallyqa] |
42.5 |
51.8 |
54.3 |
[SpatialSense VQA][ss-vqa] |
50.9 |
60.0 |
59.4 |
[CountBenchQA][countbenchqa] |
26.1 |
17.8 |
68.0 |
倫理與安全
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估,包括:
- 兒童安全:評估涵蓋兒童安全政策的文本到文本和圖像到文本提示,包括兒童性虐待和剝削。
- 內容安全:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估涵蓋安全政策的文本到文本和圖像到文本提示,包括偏見、刻板印象以及有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們用於責任治理決策的“獨立”內部評估。這些評估與模型開發團隊分開進行,為發佈決策提供信息。高級別發現會反饋給模型團隊,但提示集不會公開,以防止過擬合併保留結果為決策提供信息的能力。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果
在所有安全測試領域,與之前的Gemma模型相比,我們在兒童安全、內容安全和代表性危害類別中看到了重大改進。所有測試均在沒有安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本和圖像到文本,以及所有模型尺寸,模型產生的政策違規最少,並且在無根據推斷方面比之前的Gemma模型表現出顯著改進。我們評估的一個侷限性是隻包括英語提示。
使用與限制
預期用途
開源視覺語言模型(VLM)在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面,目的是提供模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作與溝通:
- 文本生成:可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI:為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取:用於提取、解釋和總結視覺數據,用於文本通信。
- 研究與教育:
- 自然語言處理(NLP)和VLM研究:作為研究人員試驗VLM和NLP技術、開發算法和推動該領域發展的基礎。
- 語言學習工具:支持交互式語言學習體驗,幫助進行語法糾正或提供寫作練習。
- 知識探索:幫助研究人員通過生成摘要或回答特定主題的問題來探索大量文本。
侷限性
- 訓練數據:
- 訓練數據的質量和多樣性顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性:
- 模型更擅長可以用清晰提示和指令構建的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響(在一定程度上,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別:自然語言本質上很複雜,模型可能難以理解微妙的細微差別、諷刺或比喻語言。
- 事實準確性:模型根據從訓練數據集中學到的信息生成響應,但它們不是知識庫,可能會生成不正確或過時的事實陳述。
- 常識:模型依賴於語言中的統計模式,可能在某些情況下缺乏應用常識推理的能力。
倫理考慮與風險
視覺語言模型(VLM)的開發引發了一些倫理問題。在創建開源模型時,我們仔細考慮了以下方面:
- 偏差與公平性:在大規模真實世界文本和圖像數據上訓練的VLM可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查、輸入數據預處理,並在本卡片中報告了後續評估結果。
- 錯誤信息與濫用:
- 透明度與問責制:
- 本模型卡片總結了模型的架構、能力、侷限性和評估過程的詳細信息。
- 負責任開發的開源模型為開發者和研究人員提供了共享創新的機會,使VLM技術在整個AI生態系統中更易於訪問。
已識別的風險和緩解措施:
- 偏差的延續:鼓勵在模型訓練、微調等用例中進行持續監控(使用評估指標、人工審查)並探索去偏技術。
- 有害內容的生成:內容安全機制和指南至關重要。鼓勵開發者根據其特定產品政策和應用用例謹慎行事並實施適當的內容安全保障措施。
- 惡意用途:技術限制以及對開發者和最終用戶的教育有助於減輕VLM的惡意應用。提供了教育資源和用戶舉報濫用的機制。Gemma模型的禁止用途在Gemma禁止使用政策中列出。
- 隱私侵犯:模型在經過過濾以去除某些個人信息和其他敏感數據的數據上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。
優勢
在發佈時,與類似規模的模型相比,這個模型家族提供了從底層設計的高性能開源視覺語言模型實現,旨在實現負責任的AI開發。
使用本文檔中描述的基準評估指標,這些模型已顯示出比其他類似規模的開源模型替代方案更優越的性能。
📄 許可證
本模型使用的許可證為gemma
。
如需在Hugging Face上訪問Gemma,您需要審查並同意Google的使用許可。為此,請確保您已登錄Hugging Face並點擊下方按鈕。請求將立即處理。
點擊確認許可