Gemma 3-4b-it-gguf開源多模態模型 - 免費支持圖文輸入並生成文本內容

首頁

Gemma 3 4b It Gguf

由Mungert開發

Gemma 3是谷歌推出的輕量級開源多模態模型，支持圖像和文本輸入，生成文本輸出。

圖像生成文本 #多模態圖像理解 #128K長上下文 #輕量級部署

下載量 4,593

發布時間 : 3/12/2025

模型概述

基於Gemini技術構建的輕量級開源模型，支持128K上下文窗口和140多種語言，適用於問答、摘要和圖像理解等任務。

模型特點

多模態支持

可同時處理圖像和文本輸入，生成文本輸出

大上下文窗口

支持128K令牌的上下文長度

輕量級設計

4B參數規模適合在資源有限的環境中部署

多語言支持

支持140多種語言的文本處理

模型能力

圖像內容分析

多語言文本生成

問答系統

文檔摘要

跨模態推理

使用案例

內容分析

圖像描述生成

分析圖像內容並生成詳細描述

能準確識別車輛型號、場景細節等

智能助手

多模態問答

結合圖像和文本信息回答問題

🚀 Gemma-3 4B指令式GGUF模型

Gemma-3 4B指令式GGUF模型是基於Transformer架構的圖像識別模型，可處理文本和圖像輸入並生成文本輸出，適用於多種文本生成和圖像理解任務。

🚀 快速開始

使用llama.cpp運行Gemma 3 Vision

若要在llama.cpp中使用Gemma 3 Vision的實驗性支持，請按以下步驟操作：

克隆最新的llama.cpp倉庫：

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

構建Llama.cpp：按照常規方式構建llama.cpp：構建項目。構建完成後，將./llama.cpp/build/bin/llama-gemma3-cli複製到指定文件夾。
下載Gemma 3的gguf文件：訪問Gemma 3 gguf文件，選擇名稱中不包含mmproj的gguf文件。例如：google_gemma-3-4b-it-q4_k_l.gguf，將該文件複製到指定文件夾。
下載Gemma 3的mmproj文件：訪問Gemma 3 mmproj文件，選擇名稱中包含mmproj的文件。例如：google_gemma-3-4b-it-mmproj-bf16.gguf，將該文件複製到指定文件夾。
複製圖像到指定文件夾：將圖像複製到與gguf文件相同的文件夾，或者相應地更改路徑。例如：car-1.jpg，將該文件複製到指定文件夾。
運行CLI工具：在指定文件夾中運行以下命令：

llama-gemma3-cli -m google_gemma-3-4b-it-q4_k_l.gguf --mmproj google_gemma-3-4b-it-mmproj-bf16.gguf

運行在聊天模式下，可用命令如下：
  /image <路徑>    加載圖像
  /clear           清除聊天曆史
  /quit 或 /exit   退出程序

> /image car-1.jpg
編碼圖像 car-1.jpg
圖像編碼耗時 46305 毫秒
圖像解碼耗時 19302 毫秒

> 圖像內容是什麼
以下是圖像內容的詳細描述：

**主體**：主要主體是一輛黑色保時捷Panamera Turbo在高速公路上行駛。

**細節**：
* **汽車**：這是一輛時尚、現代的保時捷Panamera Turbo，可通過其獨特的尾部設計、“PORSCHE”字樣和“Panamera Turbo”標誌識別。車牌號碼為“CVC - 911”。
* **場景**：汽車行駛在多車道高速公路上，背景是模糊的樹木、遠處的建築物和多雲的天空。光線表明當時可能是黃昏或黎明。
* **動態**：圖像捕捉到汽車行駛的瞬間，有輕微的動態模糊以體現速度感。

**整體印象**：圖像傳達出速度、豪華和力量感。這是一張構圖精美的照片，突出了汽車的設計和性能。

是否需要我更詳細地描述圖像的特定方面，或者分析其構圖？

✨ 主要特性

模型測試

如果您覺得這些模型有用，請點贊❤️。同時，如果您能測試我的網絡監控助手，我將不勝感激👉 網絡監控助手。 💬 點擊聊天圖標（主頁和儀表盤頁面右下角），選擇一個大語言模型；在不同類型的大語言模型之間切換：TurboLLM -> FreeLLM -> TestLLM。

測試內容

我正在針對我的網絡監控服務進行函數調用實驗，使用小型開源模型。我關注的問題是“模型可以多小且仍能正常工作”。 🟡 TestLLM – 使用phi - 4 - mini - instruct和phi - 4 - mini - q4_0.gguf，在CPU虛擬機的6個線程上運行llama.cpp（加載大約需要15秒，推理速度較慢，且一次只能處理一個用戶提示，仍在進行擴展優化！）。如果您感興趣，我很樂意分享其工作原理。

其他可用的AI助手

🟢 TurboLLM – 使用gpt - 4o - mini，速度快！注意：由於OpenAI模型成本較高，令牌有限，但您可以登錄或下載免費的網絡監控代理以獲取更多令牌，或者使用TestLLM。 🔵 HugLLM – 運行開源Hugging Face模型，速度快，運行小型模型（≈8B），因此質量稍低，可獲得2倍的令牌（取決於Hugging Face API的可用性）。

選擇合適的模型格式

選擇正確的模型格式取決於您的硬件能力和內存限制。

BF16（腦浮點16） – 若支持BF16加速則使用

一種16位浮點格式，旨在實現更快的計算，同時保持良好的精度。
提供與FP32 相似的動態範圍，但內存使用更低。
如果您的硬件支持BF16加速（請檢查設備規格），建議使用。
與FP32相比，適用於高性能推理且內存佔用減少。

📌 適用場景： ✔ 您的硬件具有原生BF16支持（例如，較新的GPU、TPU）。 ✔ 您希望在節省內存的同時獲得更高的精度。 ✔ 您計劃將模型重新量化為其他格式。

📌 避免場景： ❌ 您的硬件不支持BF16（可能會回退到FP32並運行較慢）。 ❌ 您需要與缺乏BF16優化的舊設備兼容。

F16（浮點16） – 比BF16更廣泛支持

一種16位浮點格式，精度較高，但取值範圍比BF16小。
適用於大多數支持FP16加速的設備（包括許多GPU和一些CPU）。
數值精度略低於BF16，但通常足以進行推理。

📌 適用場景： ✔ 您的硬件支持FP16但不支持BF16。 ✔ 您需要在速度、內存使用和準確性之間取得平衡。 ✔ 您在GPU或其他針對FP16計算優化的設備上運行。

📌 避免場景： ❌ 您的設備缺乏原生FP16支持（可能運行速度比預期慢）。 ❌ 您有內存限制。

量化模型（Q4_K、Q6_K、Q8等） – 適用於CPU和低顯存推理

量化可在儘可能保持準確性的同時減小模型大小和內存使用。

低比特模型（Q4_K） → 內存使用最少，但精度可能較低。
高比特模型（Q6_K、Q8_0） → 準確性更好，但需要更多內存。

📌 適用場景： ✔ 您在CPU上進行推理，需要優化的模型。 ✔ 您的設備顯存較低，無法加載全精度模型。 ✔ 您希望在保持合理準確性的同時減少內存佔用。

📌 避免場景： ❌ 您需要最高的準確性（全精度模型更適合）。 ❌ 您的硬件有足夠的顯存支持更高精度的格式（BF16/F16）。

模型格式選擇總結表

屬性	詳情
模型類型	BF16：精度最高，內存使用高，需要支持BF16的GPU/CPU，適用於高速推理且減少內存使用的場景；F16：精度高，內存使用高，需要支持FP16的設備，適用於BF16不可用時的GPU推理；Q4_K：精度低，內存使用極低，適用於CPU或低顯存設備，適合內存受限的環境；Q6_K：精度中等偏低，內存使用低，適用於有更多內存的CPU，在量化模型中準確性較好；Q8：精度中等，內存使用適中，需要有足夠顯存的CPU或GPU，在量化模型中準確性最佳。
訓練數據	未提及

屬性

詳情

模型類型

BF16：精度最高，內存使用高，需要支持BF16的GPU/CPU，適用於高速推理且減少內存使用的場景；F16：精度高，內存使用高，需要支持FP16的設備，適用於BF16不可用時的GPU推理；Q4_K：精度低，內存使用極低，適用於CPU或低顯存設備，適合內存受限的環境；Q6_K：精度中等偏低，內存使用低，適用於有更多內存的CPU，在量化模型中準確性較好；Q8：精度中等，內存使用適中，需要有足夠顯存的CPU或GPU，在量化模型中準確性最佳。

訓練數據

未提及

包含的文件及詳情

`google_gemma-3-4b-it-bf16.gguf`

模型權重以BF16格式保存。
如果您想將模型重新量化為其他格式，請使用此文件。
若您的設備支持BF16加速，此文件為最佳選擇。

`google_gemma-3-4b-it-f16.gguf`

模型權重以F16格式保存。
如果您的設備支持FP16，尤其是在BF16不可用時，請使用此文件。

`google_gemma-3-4b-it-bf16-q8.gguf`

輸出和嵌入保持為BF16格式。
其他所有層量化為Q8_0。
如果您的設備支持BF16且需要量化版本，請使用此文件。

`google_gemma-3-4b-it-f16-q8.gguf`

輸出和嵌入保持為F16格式。
其他所有層量化為Q8_0。

`google_gemma-3-4b-it-q4_k_l.gguf`

輸出和嵌入量化為Q8_0。
其他所有層量化為Q4_K。
適用於內存有限的CPU推理。

`google_gemma-3-4b-it-q4_k_m.gguf`

與Q4_K類似。
是低內存CPU推理的另一種選擇。

`google_gemma-3-4b-it-q4_k_s.gguf`

最小的Q4_K變體，以犧牲準確性為代價減少內存使用。
最適合極低內存的設置。

`google_gemma-3-4b-it-q6_k_l.gguf`

輸出和嵌入量化為Q8_0。
其他所有層量化為Q6_K。

`google_gemma-3-4b-it-q6_k_m.gguf`

中等範圍的Q6_K量化模型，性能平衡。
適用於中等內存的基於CPU的推理。

`google_gemma-3-4b-it-q8.gguf`

完全Q8量化的模型，準確性更好。
需要更多內存，但提供更高的精度。

📚 詳細文檔

Gemma 3模型卡片

模型頁面：Gemma

資源和技術文檔：

[Gemma 3技術報告][g3-tech-report]
[負責任的生成式AI工具包][rai-toolkit]
[Kaggle上的Gemma][kaggle-gemma]
[Vertex模型庫中的Gemma 3][vertex-mg-gemma3]

使用條款：[條款][terms]

作者：Google DeepMind

模型信息

描述

Gemma是谷歌推出的一系列輕量級、先進的開源模型，基於與Gemini模型相同的研究和技術構建。Gemma 3模型是多模態的，可處理文本和圖像輸入並生成文本輸出，預訓練變體和指令微調變體的權重均開源。Gemma 3具有128K的大上下文窗口，支持超過140種語言，且比以前的版本有更多的尺寸可供選擇。Gemma 3模型非常適合各種文本生成和圖像理解任務，包括問答、摘要和推理。其相對較小的尺寸使其能夠部署在資源有限的環境中，如筆記本電腦、臺式機或您自己的雲基礎設施，使先進的AI模型更普及，促進每個人的創新。

輸入和輸出

輸入：
- 文本字符串，如問題、提示或待總結的文檔。
- 圖像，歸一化為896 x 896分辨率，每個圖像編碼為256個令牌。
- 4B、12B和27B尺寸的總輸入上下文為128K個令牌，1B尺寸的總輸入上下文為32K個令牌。
輸出：
- 針對輸入生成的文本，如問題的答案、圖像內容分析或文檔摘要。
- 總輸出上下文為8192個令牌。