模型概述
模型特點
模型能力
使用案例
🚀 Gemma 3 1B Instruct - llamafile
Gemma 3 1B Instruct - llamafile 是將 Google 的 Gemma 3 模型打包成可執行權重的形式,即 llamafile。它能讓你在 Linux、MacOS、Windows、FreeBSD、OpenBSD 和 NetBSD 等系統(包括 AMD64 和 ARM64 架構)上輕鬆、快速地使用該模型。
🚀 快速開始
要開始使用,你需要同時獲取 Gemma 3 的權重和 llamafile 軟件,它們都包含在一個文件中,可按以下步驟下載並運行:
wget https://huggingface.co/Mozilla/gemma-3-1b-it-llamafile/resolve/main/google_gemma-3-1b-it-Q6_K.llamafile
chmod +x google_gemma-3-1b-it-Q6_K.llamafile
./google_gemma-3-1b-it-Q6_K.llamafile
這些 llamafile 的默認操作模式是新的命令行聊天機器人界面。
✨ 主要特性
- 跨平臺支持:可在 Linux、MacOS、Windows、FreeBSD、OpenBSD 和 NetBSD 等系統(AMD64 和 ARM64 架構)上運行。
- 多種使用方式:支持命令行聊天、Web GUI 以及高級 CLI 模式,還提供 OpenAI API 兼容的完成端點。
- 大上下文窗口:模型最大上下文窗口大小可達 128k 令牌。
- GPU 加速:支持在具有足夠 RAM 的 GPU 上加速運行。
📦 安裝指南
下載並運行 llamafile
wget https://huggingface.co/Mozilla/gemma-3-1b-it-llamafile/resolve/main/google_gemma-3-1b-it-Q6_K.llamafile
chmod +x google_gemma-3-1b-it-Q6_K.llamafile
./google_gemma-3-1b-it-Q6_K.llamafile
Linux 避免運行檢測錯誤
需安裝 APE 解釋器:
sudo wget -O /usr/bin/ape https://cosmo.zip/pub/cosmos/bin/ape-$(uname -m).elf
sudo chmod +x /usr/bin/ape
sudo sh -c "echo ':APE:M::MZqFpD::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"
sudo sh -c "echo ':APE-jart:M::jartsr::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"
💻 使用示例
基礎用法
在命令行中使用默認聊天模式:
./google_gemma-3-1b-it-Q6_K.llamafile
你可以使用三引號進行多行提問,還能傳遞 /stats
和 /context
等命令查看運行時狀態信息,通過 -p "new system prompt"
標誌更改系統提示,按 CTRL - C 中斷模型,按 CTRL - D 退出。
高級用法
使用 Web GUI
./google_gemma-3-1b-it-Q6_K.llamafile --server
此命令會在瀏覽器中打開一個帶有聊天機器人和完成界面的標籤頁。
高級 CLI 模式(用於 shell 腳本)
./google_gemma-3-1b-it-Q6_K.llamafile --cli -p 'four score and seven' --log-disable
📚 詳細文檔
模型信息
描述
Gemma 是 Google 推出的一系列輕量級、先進的開源模型,基於與 Gemini 模型相同的研究和技術構建。Gemma 3 模型是多模態的,能處理文本和圖像輸入並生成文本輸出,其預訓練和指令調優變體的權重均開源。它具有 128K 的大上下文窗口,支持 140 多種語言,且比之前版本有更多尺寸可供選擇。Gemma 3 模型適用於各種文本生成和圖像理解任務,如問答、摘要和推理等。由於其相對較小的尺寸,可在資源有限的環境(如筆記本電腦、臺式機或你自己的雲基礎設施)中部署,使更多人能夠使用先進的 AI 模型,促進創新。
輸入和輸出
類型 | 詳情 |
---|---|
輸入 | - 文本字符串,如問題、提示或待摘要的文檔 - 圖像,需歸一化為 896 x 896 分辨率,每個圖像編碼為 256 個令牌 - 4B、12B 和 27B 尺寸的總輸入上下文為 128K 令牌,1B 尺寸為 32K 令牌 |
輸出 | - 針對輸入生成的文本,如問題的答案、圖像內容分析或文檔摘要 - 總輸出上下文為 8192 個令牌 |
使用方法
首先,安裝 Transformers 庫(Gemma 3 從 transformers 4.50.0 版本開始支持):
$ pip install -U transformers
然後,根據你的用例複製相應的代碼片段。
使用 pipeline
API 運行
from transformers import pipeline
import torch
pipe = pipeline("text-generation", model="google/gemma-3-1b-it", device="cuda", torch_dtype=torch.bfloat16)
messages = [
[
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."},]
},
{
"role": "user",
"content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
},
],
]
output = pipe(messages, max_new_tokens=50)
在單 GPU 或多 GPU 上運行模型
from transformers import AutoTokenizer, BitsAndBytesConfig, Gemma3ForCausalLM
import torch
model_id = "google/gemma-3-1b-it"
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = Gemma3ForCausalLM.from_pretrained(
model_id, quantization_config=quantization_config
).eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
[
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."},]
},
{
"role": "user",
"content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
},
],
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device).to(torch.bfloat16)
with torch.inference_mode():
outputs = model.generate(**inputs, max_new_tokens=64)
outputs = tokenizer.batch_decode(outputs)
模型數據
訓練數據集
這些模型在包含多種來源的文本數據集上進行訓練。27B 模型使用 14 萬億個令牌進行訓練,12B 模型使用 12 萬億個令牌,4B 模型使用 4 萬億個令牌,1B 模型使用 2 萬億個令牌。主要組成部分如下:
- 網絡文檔:多樣化的網絡文本集合,確保模型接觸到廣泛的語言風格、主題和詞彙。訓練數據集包含 140 多種語言的內容。
- 代碼:讓模型接觸代碼有助於學習編程語言的語法和模式,提高生成代碼和理解代碼相關問題的能力。
- 數學:在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。
- 圖像:廣泛的圖像數據使模型能夠執行圖像分析和視覺數據提取任務。
數據預處理
對訓練數據應用了以下關鍵的數據清理和過濾方法:
- CSAM 過濾:在數據準備過程的多個階段應用了嚴格的 CSAM(兒童性虐待材料)過濾,以確保排除有害和非法內容。
- 敏感數據過濾:為使 Gemma 預訓練模型安全可靠,使用自動化技術從訓練集中過濾掉某些個人信息和其他敏感數據。
- 其他方法:根據[我們的政策][safety-policies]進行基於內容質量和安全性的過濾。
實現信息
硬件
Gemma 使用 [Tensor Processing Unit (TPU)][tpu] 硬件(TPUv4p、TPUv5p 和 TPUv5e)進行訓練。訓練視覺語言模型(VLM)需要強大的計算能力,TPU 專為機器學習中常見的矩陣運算而設計,在這方面具有以下優勢:
- 性能:TPU 專門用於處理訓練 VLM 涉及的大量計算,與 CPU 相比可顯著加速訓練過程。
- 內存:TPU 通常配備大量高帶寬內存,可在訓練期間處理大型模型和批量大小,有助於提高模型質量。
- 可擴展性:TPU Pods(大型 TPU 集群)為處理大型基礎模型不斷增長的複雜性提供了可擴展的解決方案,可將訓練分佈在多個 TPU 設備上,實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於 CPU 的基礎設施相比,TPU 可為訓練大型模型提供更具成本效益的解決方案,尤其是考慮到更快的訓練速度節省的時間和資源。
- 這些優勢與 [Google 的可持續運營承諾][sustainability]相一致。
軟件
使用 [JAX][jax] 和 [ML Pathways][ml-pathways] 進行訓練。 JAX 使研究人員能夠利用最新一代的硬件(包括 TPU),實現大型模型的更快、更高效訓練。ML Pathways 是 Google 構建能夠跨多個任務進行泛化的人工智能系統的最新成果,特別適用於基礎模型,包括此類大型語言模型。 如 [關於 Gemini 模型家族的論文][gemini-2-paper]中所述,JAX 和 ML Pathways 結合使用:“Jax 和 Pathways 的‘單控制器’編程模型允許單個 Python 進程協調整個訓練過程,極大地簡化了開發工作流程。”
評估
基準測試結果
這些模型針對大量不同的數據集和指標進行了評估,以涵蓋文本生成的各個方面:
推理和事實性
基準測試 | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
[HellaSwag][hellaswag] | 10 - shot | 62.3 | 77.2 | 84.2 | 85.6 |
[BoolQ][boolq] | 0 - shot | 63.2 | 72.3 | 78.8 | 82.4 |
[PIQA][piqa] | 0 - shot | 73.8 | 79.6 | 81.8 | 83.3 |
[SocialIQA][socialiqa] | 0 - shot | 48.9 | 51.9 | 53.4 | 54.9 |
[TriviaQA][triviaqa] | 5 - shot | 39.8 | 65.8 | 78.2 | 85.5 |
[Natural Questions][naturalq] | 5 - shot | 9.48 | 20.0 | 31.4 | 36.1 |
[ARC - c][arc] | 25 - shot | 38.4 | 56.2 | 68.9 | 70.6 |
[ARC - e][arc] | 0 - shot | 73.0 | 82.4 | 88.3 | 89.0 |
[WinoGrande][winogrande] | 5 - shot | 58.2 | 64.7 | 74.3 | 78.8 |
[BIG - Bench Hard][bbh] | few - shot | 28.4 | 50.9 | 72.6 | 77.7 |
[DROP][drop] | 1 - shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEM 和代碼
基準測試 | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MMLU][mmlu] | 5 - shot | 59.6 | 74.5 | 78.6 |
[MMLU][mmlu] (Pro COT) | 5 - shot | 29.2 | 45.3 | 52.2 |
[AGIEval][agieval] | 3 - 5 - shot | 42.1 | 57.4 | 66.2 |
[MATH][math] | 4 - shot | 24.2 | 43.3 | 50.0 |
[GSM8K][gsm8k] | 8 - shot | 38.4 | 71.0 | 82.6 |
[GPQA][gpqa] | 5 - shot | 15.0 | 25.4 | 24.3 |
[MBPP][mbpp] | 3 - shot | 46.0 | 60.4 | 65.6 |
[HumanEval][humaneval] | 0 - shot | 36.0 | 45.7 | 48.8 |
多語言
基準測試 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MGSM][mgsm] | 2.04 | 34.7 | 64.3 | 74.3 |
[Global - MMLU - Lite][global - mmlu - lite] | 24.9 | 57.0 | 69.4 | 75.7 |
[WMT24++][wmt24pp] (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
[FloRes][flores] | 29.5 | 39.2 | 46.0 | 48.8 |
[XQuAD][xquad] (all) | 43.9 | 68.0 | 74.5 | 76.8 |
[ECLeKTic][eclektic] | 4.69 | 11.0 | 17.2 | 24.4 |
[IndicGenBench][indicgenbench] | 41.4 | 57.2 | 61.7 | 63.4 |
多模態
基準測試 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
[COCOcap][coco - cap] | 102 | 111 | 116 |
[DocVQA][docvqa] (val) | 72.8 | 82.3 | 85.6 |
[InfoVQA][info - vqa] (val) | 44.1 | 54.8 | 59.4 |
[MMMU][mmmu] (pt) | 39.2 | 50.3 | 56.1 |
[TextVQA][textvqa] (val) | 58.9 | 66.5 | 68.6 |
[RealWorldQA][realworldqa] | 45.5 | 52.2 | 53.9 |
[ReMI][remi] | 27.3 | 38.5 | 44.8 |
[AI2D][ai2d] | 63.2 | 75.2 | 79.0 |
[ChartQA][chartqa] | 63.6 | 74.7 | 76.3 |
[VQAv2][vqav2] | 63.9 | 71.2 | 72.9 |
[BLINK][blinkvqa] | 38.0 | 35.9 | 39.6 |
[OKVQA][okvqa] | 51.0 | 58.7 | 60.2 |
[TallyQA][tallyqa] | 42.5 | 51.8 | 54.3 |
[SpatialSense VQA][ss - vqa] | 50.9 | 60.0 | 59.4 |
[CountBenchQA][countbenchqa] | 26.1 | 17.8 | 68.0 |
倫理與安全
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行了評估,包括:
- 兒童安全:評估文本到文本和圖像到文本的提示,涵蓋兒童安全政策,包括兒童性虐待和剝削。
- 內容安全:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括偏見、刻板印象和有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們用於責任治理決策的“獨立”內部評估。它們與模型開發團隊分開進行,為發佈決策提供信息。高級別發現會反饋給模型團隊,但提示集不會公開,以防止過擬合併保持結果為決策提供信息的能力。保證評估結果作為發佈審查的一部分報告給我們的責任與安全委員會。
評估結果
在所有安全測試領域,與之前的 Gemma 模型相比,我們在兒童安全、內容安全和代表性危害等類別中看到了重大改進。所有測試均在不使用安全過濾器的情況下進行,以評估模型的能力和行為。對於文本到文本和圖像到文本,以及所有模型尺寸,模型產生的政策違規極少,並且在無根據推斷方面比之前的 Gemma 模型有顯著改進。我們評估的一個侷限性是隻包括了英語提示。
使用與限制
預期用途
開源視覺語言模型(VLM)在各個行業和領域有廣泛的應用。以下潛在用途列表並不全面,其目的是提供有關模型創建者在模型訓練和開發過程中考慮的可能用例的上下文信息。
- 內容創作與溝通
- 文本生成:可用於生成創意文本格式,如詩歌、腳本、代碼、營銷文案和電子郵件草稿。
- 聊天機器人和對話式 AI:為客戶服務、虛擬助手或交互式應用程序提供對話界面。
- 文本摘要:生成文本語料庫、研究論文或報告的簡潔摘要。
- 圖像數據提取:用於提取、解釋和總結視覺數據,用於文本通信。
- 研究與教育
- 自然語言處理(NLP)和 VLM 研究:可作為研究人員試驗 VLM 和 NLP 技術、開發算法和推動該領域發展的基礎。
- 語言學習工具:支持交互式語言學習體驗,幫助進行語法糾正或提供寫作練習。
- 知識探索:幫助研究人員通過生成摘要或回答特定主題的問題來探索大量文本。
侷限性
- 訓練數據
- 訓練數據的質量和多樣性會顯著影響模型的能力,訓練數據中的偏差或差距可能導致模型響應的侷限性。
- 訓練數據集的範圍決定了模型能夠有效處理的主題領域。
- 上下文和任務複雜性
- 模型更擅長可以用清晰提示和指令描述的任務,開放式或高度複雜的任務可能具有挑戰性。
- 模型的性能可能受提供的上下文量影響(在一定範圍內,更長的上下文通常會導致更好的輸出)。
- 語言歧義與細微差別
- 自然語言本質上很複雜,模型可能難以理解微妙的細微差別、諷刺或比喻語言。
- 事實準確性
- 模型根據從訓練數據中學到的信息生成響應,但它們不是知識庫,可能會生成不正確或過時的事實陳述。
- 常識
- 模型依賴於語言中的統計模式,在某些情況下可能缺乏應用常識推理的能力。
倫理考慮與風險
視覺語言模型(VLM)的開發引發了一些倫理問題。在創建開源模型時,我們仔細考慮了以下方面:
- 偏差與公平性:在大規模真實世界文本和圖像數據上訓練的 VLM 可能反映訓練材料中嵌入的社會文化偏差。這些模型經過了仔細審查,輸入數據進行了預處理,並在本卡片中報告了後續評估結果。
- 錯誤信息與濫用
- VLM 可能被濫用來生成虛假、誤導或有害的文本。
- 提供了負責任使用模型的指南,見 Responsible Generative AI Toolkit。
- 透明度與問責制
- 本模型卡片總結了模型的架構、能力、侷限性和評估過程的詳細信息。
- 一個負責任開發的開源模型為在整個 AI 生態系統中與開發者和研究人員分享創新提供了機會,使 VLM 技術更易獲取。
已識別風險與緩解措施
- 偏差的延續:鼓勵在模型訓練、微調等使用場景中進行持續監測(使用評估指標、人工審查)並探索去偏技術。
- 有害內容的生成:內容安全機制和指南至關重要。鼓勵開發者根據其特定產品政策和應用用例謹慎行事並實施適當的內容安全保障措施。
- 惡意使用:技術限制以及對開發者和最終用戶的教育有助於減輕 VLM 的惡意應用。提供教育資源和用戶舉報濫用的機制,[Gemma 禁止使用政策][prohibited - use]中概述了 Gemma 模型的禁止使用情況。
- 隱私侵犯:模型在經過過濾以去除某些個人信息和其他敏感數據的數據上進行訓練。鼓勵開發者遵守隱私法規並採用隱私保護技術。
優勢
在發佈時,與類似規模的模型相比,這個模型家族提供了從頭開始為負責任的 AI 開發設計的高性能開源視覺語言模型實現。 使用本文檔中描述的基準評估指標,這些模型表現出優於其他類似規模的開源模型替代方案的性能。
許可證
本項目使用 [gemma][license_link] 許可證。
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
[kaggle - gemma]: https://www.kaggle.com/models/google/gemma - 3 [vertex - mg - gemma3]: https://console.cloud.google.com/vertex - ai/publishers/google/model - garden/gemma3 [terms]: https://ai.google.dev/gemma/terms [safety - policies]: https://ai.google/static/documents/ai - responsibility - update - published - february - 2025.pdf [prohibited - use]: https://ai.google.dev/gemma/prohibited_use_policy [tpu]: https://cloud.google.com/tpu/docs/intro - to - tpu [sustainability]: https://sustainability.google/operating - sustainably/ [jax]: https://github.com/jax - ml/jax [ml - pathways]: https://blog.google/technology/ai/introducing - pathways - next - generation - ai - architecture/ [sustainability]: https://sustainability.google/operating - sustainably/ [gemini - 2 - paper]: https://arxiv.org/abs/2312.11805 [hellaswag]: https://arxiv.org/abs/1905.07830 [boolq]: https://arxiv.org/abs/1905.10044 [piqa]: https://arxiv.org/abs/1911.11641 [socialiqa]: https://arxiv.org/abs/1904.09728 [triviaqa]: https://arxiv.org/abs/1705.03551 [naturalq]: https://github.com/google - research - datasets/natural - questions [arc]: https://arxiv.org/abs/1911.01547 [winogrande]: https://arxiv.org/abs/1907.10641 [bbh]: https://paperswithcode.com/dataset/bbh [drop]: https://arxiv.org/abs/1903.00161 [mmlu]: https://arxiv.org/abs/2009.03300 [agieval]: https://arxiv.org/abs/2304.06364 [math]: https://arxiv.org/abs/2103.03874 [gsm8k]: https://arxiv.org/abs/2110.14168 [gpqa]: https://arxiv.org/abs/2311.12022 [mbpp]: https://arxiv.org/abs/2108.07732 [humaneval]: https://arxiv.org/abs/2107.03374 [mgsm]: https://arxiv.org/abs/2210.03057 [flores]: https://arxiv.org/abs/2106.03193 [xquad]: https://arxiv.org/abs/1910.11856v3 [global - mmlu - lite]: https://huggingface.co/datasets/CohereForAI/Global - MMLU - Lite [wmt24pp]: https://arxiv.org/abs/2502.12404v1 [eclektic]: https://arxiv.org/abs/2502.21228 [indicgenbench]: https://arxiv.org/abs/2404.16816 [coco - cap]: https://cocodataset.org/#home [docvqa]: https://www.docvqa.org/ [info - vqa]: https://arxiv.org/abs/2104.12756 [mmmu]: https://arxiv.org/abs/2311.16502 [textvqa]: https://textvqa.org/ [realworldqa]: https://paperswithcode.com/dataset/realworldqa [remi]: https://arxiv.org/html/2406.09175v1 [ai2d]: https://allenai.org/data/diagrams [chartqa]: https://arxiv.org/abs/2203.10244 [vqav2]: https://visualqa.org/index.html [blinkvqa]: https://arxiv.org/abs/2404.12390 [okvqa]: https://okvqa.allenai.org/ [tallyqa]: https://arxiv.org/abs/1810.12440 [ss - vqa]: https://arxiv.org/abs/1908.02660 [countbenchqa]: https://github.com/google - research/big_vision/blob/main/big_vision/datasets/countbenchqa/









