模型概述
模型特點
模型能力
使用案例
🚀 Gemma-3 4B指令式GGUF模型
Gemma-3 4B指令式GGUF模型是基於Transformer架構的圖像識別模型,可處理文本和圖像輸入並生成文本輸出,適用於多種文本生成和圖像理解任務。
🚀 快速開始
使用llama.cpp運行Gemma 3 Vision
若要在llama.cpp
中使用Gemma 3 Vision的實驗性支持,請按以下步驟操作:
- 克隆最新的llama.cpp倉庫:
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
- 構建Llama.cpp:
按照常規方式構建llama.cpp:構建項目。
構建完成後,將
./llama.cpp/build/bin/llama-gemma3-cli
複製到指定文件夾。 - 下載Gemma 3的gguf文件:
訪問Gemma 3 gguf文件,選擇名稱中不包含
mmproj
的gguf文件。 例如:google_gemma-3-4b-it-q4_k_l.gguf,將該文件複製到指定文件夾。 - 下載Gemma 3的mmproj文件:
訪問Gemma 3 mmproj文件,選擇名稱中包含
mmproj
的文件。 例如:google_gemma-3-4b-it-mmproj-bf16.gguf,將該文件複製到指定文件夾。 - 複製圖像到指定文件夾: 將圖像複製到與gguf文件相同的文件夾,或者相應地更改路徑。 例如:car-1.jpg,將該文件複製到指定文件夾。
- 運行CLI工具: 在指定文件夾中運行以下命令:
llama-gemma3-cli -m google_gemma-3-4b-it-q4_k_l.gguf --mmproj google_gemma-3-4b-it-mmproj-bf16.gguf
運行在聊天模式下,可用命令如下:
/image <路徑> 加載圖像
/clear 清除聊天曆史
/quit 或 /exit 退出程序
> /image car-1.jpg
編碼圖像 car-1.jpg
圖像編碼耗時 46305 毫秒
圖像解碼耗時 19302 毫秒
> 圖像內容是什麼
以下是圖像內容的詳細描述:
**主體**:主要主體是一輛黑色保時捷Panamera Turbo在高速公路上行駛。
**細節**:
* **汽車**:這是一輛時尚、現代的保時捷Panamera Turbo,可通過其獨特的尾部設計、“PORSCHE”字樣和“Panamera Turbo”標誌識別。車牌號碼為“CVC - 911”。
* **場景**:汽車行駛在多車道高速公路上,背景是模糊的樹木、遠處的建築物和多雲的天空。光線表明當時可能是黃昏或黎明。
* **動態**:圖像捕捉到汽車行駛的瞬間,有輕微的動態模糊以體現速度感。
**整體印象**:圖像傳達出速度、豪華和力量感。這是一張構圖精美的照片,突出了汽車的設計和性能。
是否需要我更詳細地描述圖像的特定方面,或者分析其構圖?
✨ 主要特性
模型測試
如果您覺得這些模型有用,請點贊❤️。同時,如果您能測試我的網絡監控助手,我將不勝感激👉 網絡監控助手。 💬 點擊聊天圖標(主頁和儀表盤頁面右下角),選擇一個大語言模型;在不同類型的大語言模型之間切換:TurboLLM -> FreeLLM -> TestLLM。
測試內容
我正在針對我的網絡監控服務進行函數調用實驗,使用小型開源模型。我關注的問題是“模型可以多小且仍能正常工作”。
🟡 TestLLM – 使用phi - 4 - mini - instruct
和phi - 4 - mini - q4_0.gguf
,在CPU虛擬機的6個線程上運行llama.cpp(加載大約需要15秒,推理速度較慢,且一次只能處理一個用戶提示,仍在進行擴展優化!)。如果您感興趣,我很樂意分享其工作原理。
其他可用的AI助手
🟢 TurboLLM – 使用gpt - 4o - mini,速度快!注意:由於OpenAI模型成本較高,令牌有限,但您可以登錄或下載免費的網絡監控代理以獲取更多令牌,或者使用TestLLM。 🔵 HugLLM – 運行開源Hugging Face模型,速度快,運行小型模型(≈8B),因此質量稍低,可獲得2倍的令牌(取決於Hugging Face API的可用性)。
選擇合適的模型格式
選擇正確的模型格式取決於您的硬件能力和內存限制。
BF16(腦浮點16) – 若支持BF16加速則使用
- 一種16位浮點格式,旨在實現更快的計算,同時保持良好的精度。
- 提供與FP32 相似的動態範圍,但內存使用更低。
- 如果您的硬件支持BF16加速(請檢查設備規格),建議使用。
- 與FP32相比,適用於高性能推理且內存佔用減少。
📌 適用場景: ✔ 您的硬件具有原生BF16支持(例如,較新的GPU、TPU)。 ✔ 您希望在節省內存的同時獲得更高的精度。 ✔ 您計劃將模型重新量化為其他格式。
📌 避免場景: ❌ 您的硬件不支持BF16(可能會回退到FP32並運行較慢)。 ❌ 您需要與缺乏BF16優化的舊設備兼容。
F16(浮點16) – 比BF16更廣泛支持
- 一種16位浮點格式,精度較高,但取值範圍比BF16小。
- 適用於大多數支持FP16加速的設備(包括許多GPU和一些CPU)。
- 數值精度略低於BF16,但通常足以進行推理。
📌 適用場景: ✔ 您的硬件支持FP16但不支持BF16。 ✔ 您需要在速度、內存使用和準確性之間取得平衡。 ✔ 您在GPU或其他針對FP16計算優化的設備上運行。
📌 避免場景: ❌ 您的設備缺乏原生FP16支持(可能運行速度比預期慢)。 ❌ 您有內存限制。
量化模型(Q4_K、Q6_K、Q8等) – 適用於CPU和低顯存推理
量化可在儘可能保持準確性的同時減小模型大小和內存使用。
- 低比特模型(Q4_K) → 內存使用最少,但精度可能較低。
- 高比特模型(Q6_K、Q8_0) → 準確性更好,但需要更多內存。
📌 適用場景: ✔ 您在CPU上進行推理,需要優化的模型。 ✔ 您的設備顯存較低,無法加載全精度模型。 ✔ 您希望在保持合理準確性的同時減少內存佔用。
📌 避免場景: ❌ 您需要最高的準確性(全精度模型更適合)。 ❌ 您的硬件有足夠的顯存支持更高精度的格式(BF16/F16)。
模型格式選擇總結表
屬性 | 詳情 |
---|---|
模型類型 | BF16:精度最高,內存使用高,需要支持BF16的GPU/CPU,適用於高速推理且減少內存使用的場景;F16:精度高,內存使用高,需要支持FP16的設備,適用於BF16不可用時的GPU推理;Q4_K:精度低,內存使用極低,適用於CPU或低顯存設備,適合內存受限的環境;Q6_K:精度中等偏低,內存使用低,適用於有更多內存的CPU,在量化模型中準確性較好;Q8:精度中等,內存使用適中,需要有足夠顯存的CPU或GPU,在量化模型中準確性最佳。 |
訓練數據 | 未提及 |
包含的文件及詳情
google_gemma-3-4b-it-bf16.gguf
- 模型權重以BF16格式保存。
- 如果您想將模型重新量化為其他格式,請使用此文件。
- 若您的設備支持BF16加速,此文件為最佳選擇。
google_gemma-3-4b-it-f16.gguf
- 模型權重以F16格式保存。
- 如果您的設備支持FP16,尤其是在BF16不可用時,請使用此文件。
google_gemma-3-4b-it-bf16-q8.gguf
- 輸出和嵌入保持為BF16格式。
- 其他所有層量化為Q8_0。
- 如果您的設備支持BF16且需要量化版本,請使用此文件。
google_gemma-3-4b-it-f16-q8.gguf
- 輸出和嵌入保持為F16格式。
- 其他所有層量化為Q8_0。
google_gemma-3-4b-it-q4_k_l.gguf
- 輸出和嵌入量化為Q8_0。
- 其他所有層量化為Q4_K。
- 適用於內存有限的CPU推理。
google_gemma-3-4b-it-q4_k_m.gguf
- 與Q4_K類似。
- 是低內存CPU推理的另一種選擇。
google_gemma-3-4b-it-q4_k_s.gguf
- 最小的Q4_K變體,以犧牲準確性為代價減少內存使用。
- 最適合極低內存的設置。
google_gemma-3-4b-it-q6_k_l.gguf
- 輸出和嵌入量化為Q8_0。
- 其他所有層量化為Q6_K。
google_gemma-3-4b-it-q6_k_m.gguf
- 中等範圍的Q6_K量化模型,性能平衡。
- 適用於中等內存的基於CPU的推理。
google_gemma-3-4b-it-q8.gguf
- 完全Q8量化的模型,準確性更好。
- 需要更多內存,但提供更高的精度。
📚 詳細文檔
Gemma 3模型卡片
模型頁面:Gemma
資源和技術文檔:
- [Gemma 3技術報告][g3-tech-report]
- [負責任的生成式AI工具包][rai-toolkit]
- [Kaggle上的Gemma][kaggle-gemma]
- [Vertex模型庫中的Gemma 3][vertex-mg-gemma3]
使用條款:[條款][terms]
作者:Google DeepMind
模型信息
描述
Gemma是谷歌推出的一系列輕量級、先進的開源模型,基於與Gemini模型相同的研究和技術構建。Gemma 3模型是多模態的,可處理文本和圖像輸入並生成文本輸出,預訓練變體和指令微調變體的權重均開源。Gemma 3具有128K的大上下文窗口,支持超過140種語言,且比以前的版本有更多的尺寸可供選擇。Gemma 3模型非常適合各種文本生成和圖像理解任務,包括問答、摘要和推理。其相對較小的尺寸使其能夠部署在資源有限的環境中,如筆記本電腦、臺式機或您自己的雲基礎設施,使先進的AI模型更普及,促進每個人的創新。
輸入和輸出
- 輸入:
- 文本字符串,如問題、提示或待總結的文檔。
- 圖像,歸一化為896 x 896分辨率,每個圖像編碼為256個令牌。
- 4B、12B和27B尺寸的總輸入上下文為128K個令牌,1B尺寸的總輸入上下文為32K個令牌。
- 輸出:
- 針對輸入生成的文本,如問題的答案、圖像內容分析或文檔摘要。
- 總輸出上下文為8192個令牌。
📄 許可證
許可證信息:gemma
致謝
感謝Bartowski上傳imartix文件,並在量化方面給予指導,使我能夠生成這些gguf文件。








