模型概述
模型特點
模型能力
使用案例
🚀 Gemma-3 12B Instruct GGUF 模型
Gemma-3 12B Instruct GGUF 模型是基於 Google 先進技術的多模態模型,支持處理文本和圖像輸入並生成文本輸出。它具有 128K 大上下文窗口和超 140 種語言的多語言支持,適用於多種文本生成和圖像理解任務。
🚀 快速開始
使用 llama.cpp 運行 Gemma 3 Vision
若要在 llama.cpp
中使用 Gemma 3 Vision 的實驗性支持,請按以下步驟操作:
- 克隆最新的 llama.cpp 倉庫:
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
- 編譯 Llama.cpp:
按照常規方式編譯 llama.cpp:https://github.com/ggml-org/llama.cpp#building-the-project。編譯完成後,將
./llama.cpp/build/bin/llama-gemma3-cli
複製到指定文件夾。 - 下載 Gemma 3 的 gguf 文件:
訪問 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main,選擇名稱中不含
mmproj
的 gguf 文件。 示例 gguf 文件:https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-q4_k_l.gguf,將該文件複製到指定文件夾。 - 下載 Gemma 3 的 mmproj 文件:
訪問 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main,選擇名稱中含
mmproj
的文件。 示例 mmproj 文件:https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-mmproj-bf16.gguf,將該文件複製到指定文件夾。 - 複製圖像文件: 將圖像文件複製到與 gguf 文件相同的文件夾,或相應地修改路徑。 示例圖像:https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/car-1.jpg,將該文件複製到指定文件夾。
- 運行 CLI 工具: 在指定文件夾中運行以下命令:
llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf
運行於聊天模式,可用命令如下:
/image <路徑> 加載圖像
/clear 清除聊天曆史
/quit 或 /exit 退出程序
> /image car-1.jpg
編碼圖像 car-1.jpg
圖像編碼耗時 46305 毫秒
圖像解碼耗時 19302 毫秒
> 圖像內容是什麼
以下是圖像內容的詳細描述:
**主體**:主要主體是一輛黑色保時捷 Panamera Turbo 在高速公路上行駛。
**細節**:
* **汽車**:這是一輛時尚、現代的保時捷 Panamera Turbo,可通過其獨特的尾部設計、“PORSCHE”字樣和“Panamera Turbo”徽章識別。車牌號碼為“CVC - 911”。
* **場景**:汽車行駛在多車道高速公路上,背景是模糊的樹木、遠處的建築物和多雲的天空。光線表明當時可能是黃昏或黎明。
* **動態**:圖像捕捉到汽車行駛的瞬間,有輕微的動態模糊以體現速度感。
**整體印象**:圖像傳達出速度、豪華和力量感。這是一張構圖精美的照片,突出了汽車的設計和性能。
是否需要我更詳細地描述圖像的特定方面,或者分析其構圖?
✨ 主要特性
- 多模態處理:支持文本和圖像輸入,生成文本輸出。
- 大上下文窗口:擁有 128K 大上下文窗口,能處理長文本輸入。
- 多語言支持:支持超 140 種語言,適用於全球用戶。
- 輕量化設計:相對較小的模型尺寸,可在資源有限的環境中部署。
📦 安裝指南
按照上述“快速開始”部分的步驟進行安裝和配置。
💻 使用示例
基礎用法
llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf
高級用法
在聊天模式中,使用 /image
命令加載圖像,然後輸入問題獲取圖像描述或分析結果。
📚 詳細文檔
模型格式選擇
選擇正確的模型格式取決於您的硬件能力和內存限制。
BF16(Brain Float 16) – 適用於支持 BF16 加速的情況
- 一種 16 位浮點格式,專為更快的計算而設計,同時保持較高的精度。
- 提供與 FP32 相似的動態範圍,但內存使用更低。
- 若您的硬件支持 BF16 加速(請檢查設備規格),建議使用。
- 與 FP32 相比,適用於高性能推理且內存佔用減少的場景。
📌 適用情況: ✔ 您的硬件具有原生 BF16 支持(如較新的 GPU、TPU)。 ✔ 您希望在節省內存的同時獲得更高的精度。 ✔ 您計劃將模型重新量化為其他格式。
📌 避免情況: ❌ 您的硬件不支持 BF16(可能會回退到 FP32 並運行較慢)。 ❌ 您需要與缺乏 BF16 優化的舊設備兼容。
F16(Float 16) – 比 BF16 更廣泛支持
- 一種 16 位浮點格式,精度較高,但取值範圍小於 BF16。
- 適用於大多數支持 FP16 加速的設備(包括許多 GPU 和一些 CPU)。
- 數值精度略低於 BF16,但通常足以進行推理。
📌 適用情況: ✔ 您的硬件支持 FP16 但不支持 BF16。 ✔ 您需要在速度、內存使用和準確性之間取得平衡。 ✔ 您在 GPU 或其他針對 FP16 計算優化的設備上運行。
📌 避免情況: ❌ 您的設備缺乏原生 FP16 支持(可能運行比預期慢)。 ❌ 您有內存限制。
量化模型(Q4_K、Q6_K、Q8 等) – 適用於 CPU 和低顯存推理
量化可在儘可能保持準確性的同時減小模型大小和內存使用。
- 低比特模型(Q4_K) → 最適合最小化內存使用,可能精度較低。
- 高比特模型(Q6_K、Q8_0) → 準確性更好,但需要更多內存。
📌 適用情況: ✔ 您在 CPU 上進行推理,需要優化的模型。 ✔ 您的設備顯存較低,無法加載全精度模型。 ✔ 您希望在保持合理準確性的同時減少內存佔用。
📌 避免情況: ❌ 您需要最高準確性(全精度模型更適合)。 ❌ 您的硬件有足夠的顯存支持更高精度的格式(BF16/F16)。
模型格式選擇總結表
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持 BF16 的 GPU/CPU | 減少內存的高速推理 |
F16 | 高 | 高 | 支持 FP16 的設備 | BF16 不可用時的 GPU 推理 |
Q4_K | 低 | 極低 | CPU 或低顯存設備 | 內存受限環境的最佳選擇 |
Q6_K | 中低 | 低 | 內存較多的 CPU | 量化模型中準確性較好的選擇 |
Q8 | 中 | 中等 | 有足夠顯存的 CPU 或 GPU | 量化模型中準確性最高的選擇 |
包含文件及詳情
google_gemma-3-12b-it-bf16.gguf
- 模型權重以 BF16 保存。
- 若要將模型重新量化為其他格式,可使用此文件。
- 若您的設備支持 BF16 加速,此文件為最佳選擇。
google_gemma-3-12b-it-f16.gguf
- 模型權重以 F16 保存。
- 若您的設備支持 FP16,尤其是 BF16 不可用時,可使用此文件。
google_gemma-3-12b-it-bf16-q8.gguf
- 輸出和嵌入保持為 BF16。
- 其他層量化為 Q8_0。
- 若您的設備支持 BF16 且需要量化版本,可使用此文件。
google_gemma-3-12b-it-f16-q8.gguf
- 輸出和嵌入保持為 F16。
- 其他層量化為 Q8_0。
google_gemma-3-12b-it-q4_k_l.gguf
- 輸出和嵌入量化為 Q8_0。
- 其他層量化為 Q4_K。
- 適合內存有限的 CPU 推理。
google_gemma-3-12b-it-q4_k_m.gguf
- 與 Q4_K 類似。
- 是低內存 CPU 推理的另一種選擇。
google_gemma-3-12b-it-q4_k_s.gguf
- 最小的 Q4_K 變體,以犧牲準確性為代價減少內存使用。
- 最適合極低內存環境。
google_gemma-3-12b-it-q6_k_l.gguf
- 輸出和嵌入量化為 Q8_0。
- 其他層量化為 Q6_K。
google_gemma-3-12b-it-q6_k_m.gguf
- 中等範圍的 Q6_K 量化模型,性能平衡。
- 適用於中等內存的 CPU 推理。
google_gemma-3-12b-it-q8.gguf
- 完全 Q8 量化的模型,準確性更好。
- 需要更多內存,但提供更高的精度。
📚 詳細文檔
Gemma 3 模型卡片
- 模型頁面:Gemma
- 資源和技術文檔:
- [Gemma 3 技術報告][g3-tech-report]
- [負責任的生成式 AI 工具包][rai-toolkit]
- [Kaggle 上的 Gemma][kaggle-gemma]
- [Vertex 模型庫中的 Gemma][vertex-mg-gemma3]
- 使用條款:[條款][terms]
- 作者:Google DeepMind
模型信息
描述
Gemma 是 Google 推出的一系列輕量級、最先進的開放模型,基於創建 Gemini 模型的相同研究和技術構建。Gemma 3 模型是多模態的,支持處理文本和圖像輸入並生成文本輸出,預訓練和指令調優變體的權重均開放。Gemma 3 具有 128K 大上下文窗口,支持超 140 種語言,且比以前的版本有更多尺寸可供選擇。Gemma 3 模型適用於各種文本生成和圖像理解任務,包括問答、摘要和推理。其相對較小的尺寸使其能夠在資源有限的環境中部署,如筆記本電腦、臺式機或您自己的雲基礎設施,使每個人都能使用最先進的 AI 模型,促進創新。
輸入和輸出
- 輸入:
- 文本字符串,如問題、提示或待摘要的文檔。
- 圖像,歸一化為 896 x 896 分辨率,每個圖像編碼為 256 個令牌。
- 4B、12B 和 27B 尺寸的總輸入上下文為 128K 個令牌,1B 尺寸為 32K 個令牌。
- 輸出:
- 對輸入的生成文本響應,如問題的答案、圖像內容分析或文檔摘要。
- 總輸出上下文為 8192 個令牌。
📄 許可證
許可證信息:gemma
🔗 相關鏈接
如果您覺得這些模型有用,請點贊 ❤️。同時,如果您能測試我的網絡監控助手,我將不勝感激。👉 網絡監控助手。 💬 點擊聊天圖標(主頁和儀表盤頁面右下角),選擇一個大語言模型;在 TurboLLM -> FreeLLM -> TestLLM 之間切換。
測試內容
我正在針對我的網絡監控服務進行函數調用實驗,使用小型開源模型。我關注的問題是“模型可以多小仍能正常工作”。
🟡 TestLLM – 使用 phi-4-mini-q4_0.gguf
運行 Phi - 4 - mini - instruct,在 CPU 虛擬機的 6 個線程上使用 llama.cpp 運行(加載大約需要 15 秒。推理速度較慢,一次只能處理一個用戶提示,仍在進行擴展優化!)。如果您感興趣,我很樂意分享其工作原理。
其他可用的 AI 助手
🟢 TurboLLM – 使用 gpt - 4o - mini,速度快。注意:由於 OpenAI 模型成本較高,令牌有限,但您可以登錄或下載免費的網絡監控代理以獲取更多令牌,也可使用 TestLLM。 🔵 HugLLM – 運行開源的 Hugging Face 模型,速度快。運行小型模型(≈8B),因此質量較低。在 Hugging Face API 可用的情況下,可獲得 2 倍的令牌。








