模型概述
模型特點
模型能力
使用案例
🚀 Gemma 3 27B指令微調QAT壓縮張量
Gemma 3 27B指令微調QAT壓縮張量模型,是基於Google先進技術的輕量級多模態模型。它能處理文本和圖像輸入並生成文本輸出,適用於多種文本生成和圖像理解任務,且在內存使用和性能上有出色表現。
🚀 快速開始
你可以使用vLLM運行此模型:
vllm serve gaunernst/gemma-3-27b-it-qat-compressed-tensors
✨ 主要特性
- 多模態處理:能夠處理文本和圖像輸入,生成文本輸出,適用於多種文本生成和圖像理解任務。
- 低內存需求:通過量化感知訓練(QAT),在顯著降低內存需求的同時,保持與
bfloat16
相似的質量。 - 高性能:使用TPU硬件進行訓練,結合JAX和ML Pathways軟件,提供高效的訓練和推理性能。
- 多語言支持:支持超過140種語言,適用於全球用戶。
📦 安裝指南
使用vLLM運行模型的安裝命令如下:
vllm serve gaunernst/gemma-3-27b-it-qat-compressed-tensors
💻 使用示例
基礎用法
llama.cpp(僅文本)
./llama-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Write a poem about the Kraken."
llama.cpp(圖像輸入)
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "Describe this image." --image ~/Downloads/surprise.png
ollama(僅文本)
ollama run hf.co/google/gemma-3-27b-it-qat-q4_0-gguf
📚 詳細文檔
模型信息
描述
Gemma是Google推出的一系列輕量級、先進的開放模型,基於與Gemini模型相同的研究和技術構建。Gemma 3模型是多模態的,能夠處理文本和圖像輸入,並生成文本輸出。其預訓練和指令微調版本的權重均開放,具有128K的大上下文窗口,支持超過140種語言,且有多種尺寸可供選擇。該模型適用於各種文本生成和圖像理解任務,如問答、摘要和推理等。由於其相對較小的尺寸,可在資源有限的環境(如筆記本電腦、臺式機或自有云基礎設施)中部署,使更多人能夠使用先進的AI模型,促進創新。
輸入和輸出
類型 | 詳情 |
---|---|
輸入 | - 文本字符串,如問題、提示或待摘要的文檔 - 圖像,歸一化為896 x 896分辨率,每個圖像編碼為256個標記 - 4B、12B和27B尺寸的模型總輸入上下文為128K個標記,1B尺寸的模型為32K個標記 |
輸出 | - 針對輸入生成的文本,如問題的答案、圖像內容的分析或文檔的摘要 - 總輸出上下文為8192個標記 |
模型數據
訓練數據集
這些模型在包含多種來源的文本數據集上進行訓練。27B模型使用14萬億個標記進行訓練,12B模型使用12萬億個標記,4B模型使用4萬億個標記,1B模型使用2萬億個標記。主要數據來源包括:
- 網頁文檔:多樣化的網頁文本集合,確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含超過140種語言的內容。
- 代碼:讓模型接觸代碼有助於學習編程語言的語法和模式,提高生成代碼和理解代碼相關問題的能力。
- 數學:在數學文本上進行訓練,幫助模型學習邏輯推理、符號表示和解決數學查詢。
- 圖像:廣泛的圖像數據使模型能夠執行圖像分析和視覺數據提取任務。
數據預處理
對訓練數據應用了以下關鍵的數據清理和過濾方法:
- CSAM過濾:在數據準備過程的多個階段應用嚴格的CSAM(兒童性虐待材料)過濾,確保排除有害和非法內容。
- 敏感數據過濾:作為確保Gemma預訓練模型安全可靠的一部分,使用自動化技術從訓練集中過濾出某些個人信息和其他敏感數據。
- 其他方法:根據內容質量和安全性進行過濾,符合我們的政策。
實現信息
硬件
Gemma使用張量處理單元(TPU)硬件(TPUv4p、TPUv5p和TPUv5e)進行訓練。訓練視覺語言模型(VLM)需要大量的計算能力。TPU專門為機器學習中常見的矩陣運算而設計,在該領域具有以下優勢:
- 性能:TPU專門用於處理訓練VLM涉及的大量計算,與CPU相比,可顯著加速訓練過程。
- 內存:TPU通常配備大量高帶寬內存,允許在訓練過程中處理大型模型和批量大小,有助於提高模型質量。
- 可擴展性:TPU Pod(大型TPU集群)為處理大型基礎模型日益增長的複雜性提供了可擴展的解決方案。可以在多個TPU設備上分佈訓練,實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於CPU的基礎設施相比,TPU為訓練大型模型提供了更具成本效益的解決方案,特別是考慮到更快的訓練速度節省的時間和資源。
- 這些優勢符合Google的可持續運營承諾。
軟件
使用JAX和ML Pathways進行訓練。 JAX使研究人員能夠利用最新一代的硬件(包括TPU),實現大型模型的更快、更高效訓練。ML Pathways是Google最新的構建能夠跨多個任務進行泛化的人工智能系統的努力,特別適用於基礎模型,包括此類大型語言模型。 JAX和ML Pathways的結合使用在關於Gemini系列模型的論文中有描述:“Jax和Pathways的‘單控制器’編程模型允許單個Python進程編排整個訓練過程,大大簡化了開發工作流程。”
評估
基準測試結果
這些模型在多個不同的數據集和指標上進行評估,以涵蓋文本生成的不同方面:
基準測試 | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
MMLU | 5-shot | - | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5-shot | - | 29.2 | 45.3 | 52.2 |
AGIEval | 3 - 5-shot | - | 42.1 | 57.4 | 66.2 |
MATH | 4-shot | - | 24.2 | 43.3 | 50.0 |
GSM8K | 8-shot | - | 38.4 | 71.0 | 82.6 |
GPQA | 5-shot | - | 15.0 | 25.4 | 24.3 |
MBPP | 3-shot | - | 46.0 | 60.4 | 65.6 |
HumanEval | 0-shot | - | 36.0 | 45.7 | 48.8 |
MGSM | - | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | - | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | - | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | - | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (all) | - | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | - | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | - | 41.4 | 57.2 | 61.7 | 63.4 |
COCOcap | - | 102 | 111 | 116 | |
DocVQA (val) | - | 72.8 | 82.3 | 85.6 | |
InfoVQA (val) | - | 44.1 | 54.8 | 59.4 | |
MMMU (pt) | - | 39.2 | 50.3 | 56.1 | |
TextVQA (val) | - | 58.9 | 66.5 | 68.6 | |
RealWorldQA | - | 45.5 | 52.2 | 53.9 | |
ReMI | - | 27.3 | 38.5 | 44.8 | |
AI2D | - | 63.2 | 75.2 | 79.0 | |
ChartQA | - | 63.6 | 74.7 | 76.3 | |
VQAv2 | - | 63.9 | 71.2 | 72.9 | |
BLINK | - | 38.0 | 35.9 | 39.6 | |
OKVQA | - | 51.0 | 58.7 | 60.2 | |
TallyQA | - | 42.5 | 51.8 | 54.3 | |
SpatialSense VQA | - | 50.9 | 60.0 | 59.4 | |
CountBenchQA | - | 26.1 | 17.8 | 68.0 |
倫理與安全
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型在與倫理和安全相關的多個不同類別上進行評估,包括:
- 兒童安全:評估文本到文本和圖像到文本的提示,涵蓋兒童安全政策,包括兒童性虐待和剝削。
- 內容安全:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括偏見、刻板印象以及有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們獨立的內部評估,用於責任治理決策。這些評估與模型開發團隊分開進行,為發佈決策提供信息。高級別的評估結果會反饋給模型團隊,但提示集不會公開,以防止過擬合併確保評估結果能夠為決策提供有效信息。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果
在所有安全測試領域,與之前的Gemma模型相比,我們在兒童安全、內容安全和代表性危害等類別中看到了重大改進。所有測試均在不使用安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本和圖像到文本的任務,以及所有模型尺寸,模型產生的政策違規極少,並且在無根據推斷方面比之前的Gemma模型表現出顯著改進。我們評估的一個侷限性是隻包括英語提示。
使用和限制
預期用途
開放視覺語言模型(VLM)在各個行業和領域有廣泛的應用。以下是可能的用途列表,但並不全面。該列表旨在提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作和通信
- 文本生成:這些模型可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式AI:為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取:這些模型可用於提取、解釋和總結視覺數據,用於文本通信。
- 研究和教育
- 自然語言處理(NLP)和VLM研究:這些模型可作為研究人員試驗VLM和NLP技術、開發算法和推動該領域發展的基礎。
- 語言學習工具:支持交互式語言學習體驗,幫助進行語法糾正或提供寫作練習。
- 知識探索:幫助研究人員通過生成摘要或回答特定主題的問題來探索大量文本。
侷限性
- 訓練數據
- 訓練數據的質量和多樣性顯著影響模型的能力。訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性
- 模型更擅長可以用清晰提示和說明描述的任務。開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受到提供的上下文量的影響(在一定程度上,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別
- 自然語言本質上是複雜的。模型可能難以理解微妙的細微差別、諷刺或比喻語言。
- 事實準確性
- 模型根據從訓練數據集中學到的信息生成響應,但它們不是知識庫。可能會生成不正確或過時的事實陳述。
- 常識
- 模型依賴於語言中的統計模式。在某些情況下,它們可能缺乏應用常識推理的能力。
倫理考慮和風險
視覺語言模型(VLM)的開發引發了一些倫理問題。在創建開放模型時,我們仔細考慮了以下方面:
- 偏差和公平性
- 在大規模真實世界文本和圖像數據上訓練的VLM可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查,輸入數據的預處理和後續評估在本模型卡中報告。
- 錯誤信息和濫用
- VLM可能被濫用來生成虛假、誤導或有害的文本。
- 提供了負責任使用模型的指南,見負責任的生成式AI工具包。
- 透明度和問責制
- 本模型卡總結了模型的架構、能力、侷限性和評估過程的詳細信息。
- 負責任開發的開放模型為AI生態系統中的開發者和研究人員提供了共享創新和使用VLM技術的機會。
已識別的風險和緩解措施
- 偏差的延續:鼓勵在模型訓練、微調等使用場景中進行持續監測(使用評估指標、人工審查),並探索去偏技術。
- 有害內容的生成:內容安全機制和指南至關重要。鼓勵開發者根據其特定的產品政策和應用用例謹慎行事,並實施適當的內容安全保障措施。
- 惡意使用:技術限制以及對開發者和最終用戶的教育有助於減輕VLM的惡意應用。提供了教育資源和用戶報告濫用行為的機制。Gemma模型的禁止使用情況在Gemma禁止使用政策中列出。
- 隱私侵犯:模型在經過過濾以去除某些個人信息和其他敏感數據的數據集上進行訓練。鼓勵開發者遵守隱私法規,採用保護隱私的技術。
優勢
在發佈時,與同等規模的模型相比,該系列模型提供了高性能的開放視覺語言模型實現,從底層設計就考慮了負責任的AI開發。 使用本文檔中描述的基準評估指標,這些模型表現出優於其他同等規模開放模型的性能。
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
資源和技術文檔
使用條款
作者
Google DeepMind
許可證
Gemma
訪問Gemma
若要在Hugging Face上訪問Gemma,你需要審查並同意Google的使用許可。為此,請確保你已登錄Hugging Face並點擊下方按鈕。請求將立即處理。 確認許可








