Gemma-3開源多模態模型 - 支持圖文輸入，超140種語言文本輸出！

首頁

Gemma 3 12b It Gguf

由Mungert開發

Gemma-3 是谷歌推出的輕量級多模態開放模型，支持文本和圖像輸入，生成文本輸出。基於創建 Gemini 模型的研究和技術構建，具有 128K 大上下文窗口，支持超過 140 種語言。

圖像生成文本 #多模態圖像理解 #128K長上下文 #輕量級部署

下載量 4,574

發布時間 : 3/12/2025

模型概述

Gemma-3 是多模態模型，適用於文本生成和圖像理解任務，包括問答、摘要和推理。其相對較小的尺寸使其能夠在資源有限的環境中部署。

模型特點

多模態支持

支持文本和圖像輸入，生成文本輸出，適用於多種任務。

大上下文窗口

具有 128K 的大上下文窗口，適合處理長文本和複雜任務。

輕量級設計

相對較小的尺寸使其能夠在資源有限的環境中部署，如筆記本電腦或自有云基礎設施。

多語言支持

支持超過 140 種語言，適合全球化應用。

模型能力

文本生成

圖像理解

問答

摘要

推理

使用案例

內容生成

圖像描述生成

根據輸入的圖像生成詳細的描述文本。

生成準確且詳細的圖像描述，適用於無障礙服務或內容標註。

問答系統

基於文本或圖像輸入的問答系統。

提供準確的答案，適用於客服或教育場景。

數據分析

文檔摘要

對長文檔進行摘要，提取關鍵信息。

生成簡潔且信息豐富的摘要，提高閱讀效率。

🚀 Gemma-3 12B Instruct GGUF 模型

Gemma-3 12B Instruct GGUF 模型是基於 Google 先進技術的多模態模型，支持處理文本和圖像輸入並生成文本輸出。它具有 128K 大上下文窗口和超 140 種語言的多語言支持，適用於多種文本生成和圖像理解任務。

🚀 快速開始

使用 llama.cpp 運行 Gemma 3 Vision

若要在 llama.cpp 中使用 Gemma 3 Vision 的實驗性支持，請按以下步驟操作：

克隆最新的 llama.cpp 倉庫：

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

編譯 Llama.cpp：按照常規方式編譯 llama.cpp：https://github.com/ggml-org/llama.cpp#building-the-project。編譯完成後，將 ./llama.cpp/build/bin/llama-gemma3-cli 複製到指定文件夾。
下載 Gemma 3 的 gguf 文件：訪問 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main，選擇名稱中不含 mmproj 的 gguf 文件。示例 gguf 文件：https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-q4_k_l.gguf，將該文件複製到指定文件夾。
下載 Gemma 3 的 mmproj 文件：訪問 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main，選擇名稱中含 mmproj 的文件。示例 mmproj 文件：https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-mmproj-bf16.gguf，將該文件複製到指定文件夾。
複製圖像文件：將圖像文件複製到與 gguf 文件相同的文件夾，或相應地修改路徑。示例圖像：https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/car-1.jpg，將該文件複製到指定文件夾。
運行 CLI 工具：在指定文件夾中運行以下命令：

llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf

運行於聊天模式，可用命令如下：
  /image <路徑>    加載圖像
  /clear           清除聊天曆史
  /quit 或 /exit   退出程序

> /image car-1.jpg
編碼圖像 car-1.jpg
圖像編碼耗時 46305 毫秒
圖像解碼耗時 19302 毫秒

> 圖像內容是什麼
以下是圖像內容的詳細描述：

**主體**：主要主體是一輛黑色保時捷 Panamera Turbo 在高速公路上行駛。

**細節**：
* **汽車**：這是一輛時尚、現代的保時捷 Panamera Turbo，可通過其獨特的尾部設計、“PORSCHE”字樣和“Panamera Turbo”徽章識別。車牌號碼為“CVC - 911”。
* **場景**：汽車行駛在多車道高速公路上，背景是模糊的樹木、遠處的建築物和多雲的天空。光線表明當時可能是黃昏或黎明。
* **動態**：圖像捕捉到汽車行駛的瞬間，有輕微的動態模糊以體現速度感。

**整體印象**：圖像傳達出速度、豪華和力量感。這是一張構圖精美的照片，突出了汽車的設計和性能。

是否需要我更詳細地描述圖像的特定方面，或者分析其構圖？

✨ 主要特性

多模態處理：支持文本和圖像輸入，生成文本輸出。
大上下文窗口：擁有 128K 大上下文窗口，能處理長文本輸入。
多語言支持：支持超 140 種語言，適用於全球用戶。
輕量化設計：相對較小的模型尺寸，可在資源有限的環境中部署。

📦 安裝指南

按照上述“快速開始”部分的步驟進行安裝和配置。

💻 使用示例

基礎用法

llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf

高級用法

在聊天模式中，使用 /image 命令加載圖像，然後輸入問題獲取圖像描述或分析結果。

📚 詳細文檔

模型格式選擇

選擇正確的模型格式取決於您的硬件能力和內存限制。

BF16（Brain Float 16） – 適用於支持 BF16 加速的情況

一種 16 位浮點格式，專為更快的計算而設計，同時保持較高的精度。
提供與 FP32 相似的動態範圍，但內存使用更低。
若您的硬件支持 BF16 加速（請檢查設備規格），建議使用。
與 FP32 相比，適用於高性能推理且內存佔用減少的場景。

📌 適用情況： ✔ 您的硬件具有原生 BF16 支持（如較新的 GPU、TPU）。 ✔ 您希望在節省內存的同時獲得更高的精度。 ✔ 您計劃將模型重新量化為其他格式。

📌 避免情況： ❌ 您的硬件不支持 BF16（可能會回退到 FP32 並運行較慢）。 ❌ 您需要與缺乏 BF16 優化的舊設備兼容。

F16（Float 16） – 比 BF16 更廣泛支持

一種 16 位浮點格式，精度較高，但取值範圍小於 BF16。
適用於大多數支持 FP16 加速的設備（包括許多 GPU 和一些 CPU）。
數值精度略低於 BF16，但通常足以進行推理。

📌 適用情況： ✔ 您的硬件支持 FP16 但不支持 BF16。 ✔ 您需要在速度、內存使用和準確性之間取得平衡。 ✔ 您在 GPU 或其他針對 FP16 計算優化的設備上運行。

📌 避免情況： ❌ 您的設備缺乏原生 FP16 支持（可能運行比預期慢）。 ❌ 您有內存限制。

量化模型（Q4_K、Q6_K、Q8 等） – 適用於 CPU 和低顯存推理

量化可在儘可能保持準確性的同時減小模型大小和內存使用。

低比特模型（Q4_K） → 最適合最小化內存使用，可能精度較低。
高比特模型（Q6_K、Q8_0） → 準確性更好，但需要更多內存。

📌 適用情況： ✔ 您在 CPU 上進行推理，需要優化的模型。 ✔ 您的設備顯存較低，無法加載全精度模型。 ✔ 您希望在保持合理準確性的同時減少內存佔用。

📌 避免情況： ❌ 您需要最高準確性（全精度模型更適合）。 ❌ 您的硬件有足夠的顯存支持更高精度的格式（BF16/F16）。

模型格式選擇總結表

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持 BF16 的 GPU/CPU	減少內存的高速推理
F16	高	高	支持 FP16 的設備	BF16 不可用時的 GPU 推理
Q4_K	低	極低	CPU 或低顯存設備	內存受限環境的最佳選擇
Q6_K	中低	低	內存較多的 CPU	量化模型中準確性較好的選擇
Q8	中	中等	有足夠顯存的 CPU 或 GPU	量化模型中準確性最高的選擇

包含文件及詳情

`google_gemma-3-12b-it-bf16.gguf`

模型權重以 BF16 保存。
若要將模型重新量化為其他格式，可使用此文件。
若您的設備支持 BF16 加速，此文件為最佳選擇。

`google_gemma-3-12b-it-f16.gguf`

模型權重以 F16 保存。
若您的設備支持 FP16，尤其是 BF16 不可用時，可使用此文件。

`google_gemma-3-12b-it-bf16-q8.gguf`

輸出和嵌入保持為 BF16。
其他層量化為 Q8_0。
若您的設備支持 BF16 且需要量化版本，可使用此文件。

`google_gemma-3-12b-it-f16-q8.gguf`

輸出和嵌入保持為 F16。
其他層量化為 Q8_0。

`google_gemma-3-12b-it-q4_k_l.gguf`

輸出和嵌入量化為 Q8_0。
其他層量化為 Q4_K。
適合內存有限的 CPU 推理。

`google_gemma-3-12b-it-q4_k_m.gguf`

與 Q4_K 類似。
是低內存 CPU 推理的另一種選擇。

`google_gemma-3-12b-it-q4_k_s.gguf`

最小的 Q4_K 變體，以犧牲準確性為代價減少內存使用。
最適合極低內存環境。

`google_gemma-3-12b-it-q6_k_l.gguf`

輸出和嵌入量化為 Q8_0。
其他層量化為 Q6_K。

`google_gemma-3-12b-it-q6_k_m.gguf`

中等範圍的 Q6_K 量化模型，性能平衡。
適用於中等內存的 CPU 推理。

`google_gemma-3-12b-it-q8.gguf`

完全 Q8 量化的模型，準確性更好。
需要更多內存，但提供更高的精度。

📚 詳細文檔

Gemma 3 模型卡片

模型頁面：Gemma
資源和技術文檔：
- [Gemma 3 技術報告][g3-tech-report]
- [負責任的生成式 AI 工具包][rai-toolkit]
- [Kaggle 上的 Gemma][kaggle-gemma]
- [Vertex 模型庫中的 Gemma][vertex-mg-gemma3]
使用條款：[條款][terms]
作者：Google DeepMind

模型信息

描述

Gemma 是 Google 推出的一系列輕量級、最先進的開放模型，基於創建 Gemini 模型的相同研究和技術構建。Gemma 3 模型是多模態的，支持處理文本和圖像輸入並生成文本輸出，預訓練和指令調優變體的權重均開放。Gemma 3 具有 128K 大上下文窗口，支持超 140 種語言，且比以前的版本有更多尺寸可供選擇。Gemma 3 模型適用於各種文本生成和圖像理解任務，包括問答、摘要和推理。其相對較小的尺寸使其能夠在資源有限的環境中部署，如筆記本電腦、臺式機或您自己的雲基礎設施，使每個人都能使用最先進的 AI 模型，促進創新。

輸入和輸出

輸入：
- 文本字符串，如問題、提示或待摘要的文檔。
- 圖像，歸一化為 896 x 896 分辨率，每個圖像編碼為 256 個令牌。
- 4B、12B 和 27B 尺寸的總輸入上下文為 128K 個令牌，1B 尺寸為 32K 個令牌。
輸出：
- 對輸入的生成文本響應，如問題的答案、圖像內容分析或文檔摘要。
- 總輸出上下文為 8192 個令牌。

📄 許可證

許可證信息：gemma

🔗 相關鏈接

如果您覺得這些模型有用，請點贊 ❤️。同時，如果您能測試我的網絡監控助手，我將不勝感激。👉 網絡監控助手。 💬 點擊聊天圖標（主頁和儀表盤頁面右下角），選擇一個大語言模型；在 TurboLLM -> FreeLLM -> TestLLM 之間切換。

測試內容

我正在針對我的網絡監控服務進行函數調用實驗，使用小型開源模型。我關注的問題是“模型可以多小仍能正常工作”。 🟡 TestLLM – 使用 phi-4-mini-q4_0.gguf 運行 Phi - 4 - mini - instruct，在 CPU 虛擬機的 6 個線程上使用 llama.cpp 運行（加載大約需要 15 秒。推理速度較慢，一次只能處理一個用戶提示，仍在進行擴展優化！）。如果您感興趣，我很樂意分享其工作原理。

其他可用的 AI 助手

🟢 TurboLLM – 使用 gpt - 4o - mini，速度快。注意：由於 OpenAI 模型成本較高，令牌有限，但您可以登錄或下載免費的網絡監控代理以獲取更多令牌，也可使用 TestLLM。 🔵 HugLLM – 運行開源的 Hugging Face 模型，速度快。運行小型模型（≈8B），因此質量較低。在 Hugging Face API 可用的情況下，可獲得 2 倍的令牌。