mlabonne_gemma-3-4b-it-abliterated-GGUF開源模型 - 免費部署處理圖像文本到文本任務！

首頁

Mlabonne Gemma 3 4b It Abliterated GGUF

由bartowski開發

這是一個基於mlabonne/gemma-3-4b-it-abliterated模型的量化版本，使用llama.cpp進行imatrix量化，適用於圖像文本到文本任務。

圖像生成文本 #多模態視覺理解 #高精度量化 #輕量級部署

下載量 9,164

發布時間 : 3/18/2025

模型概述

該模型是Gemma-3-4B-IT的量化版本，支持視覺任務，提供多種量化選項以適應不同硬件需求。

模型特點

多種量化選項

提供從BF16到Q2_K的多種量化版本，適應不同硬件和性能需求。

視覺任務支持

包含MMPROJ文件，支持視覺任務處理。

高效推理

使用llama.cpp優化，支持在LM Studio等平臺高效運行。

模型能力

圖像文本生成

多模態理解

文本生成

使用案例

多模態應用

圖像描述生成

根據輸入圖像生成描述性文本。

視覺問答

回答關於圖像內容的問題。

文本生成

對話系統

構建基於多模態輸入的對話系統。

🚀 Llama.cpp對mlabonne的gemma - 3 - 4b - it - abliterated的量化版本

本項目是對mlabonne的gemma - 3 - 4b - it - abliterated模型進行量化處理後的成果。通過量化，能夠在不同硬件條件下更高效地運行該模型。

基本信息

屬性	詳情
量化者	bartowski
任務類型	圖像文本到文本
許可證	gemma
基礎模型	mlabonne/gemma - 3 - 4b - it - abliterated

🚀 快速開始

本項目使用 llama.cpp 的 b4896 版本進行量化。

原始模型地址：https://huggingface.co/mlabonne/gemma - 3 - 4b - it - abliterated
所有量化版本均使用 imatrix 選項，並採用此處的數據集。

運行方式

LM Studio：可在 LM Studio 中運行。
llama.cpp：可直接使用 llama.cpp 或任何基於 llama.cpp 的項目運行。

✨ 主要特性

提示格式

<bos><start_of_turn>user
{system_prompt}

{prompt}<end_of_turn>
<start_of_turn>model

嵌入/輸出權重

部分量化版本（如 Q3_K_XL、Q4_K_L 等）採用標準量化方法，將嵌入和輸出權重量化為 Q8_0，而非默認值。

ARM/AVX 信息

之前，會下載 Q4_0_4_4/4_8/8_8 版本，這些版本的權重在內存中交錯排列，以提高 ARM 和 AVX 機器的性能。
現在，有了“在線重新打包”功能，詳情見此 PR。如果使用 Q4_0 且硬件適合重新打包權重，會自動進行。
從 llama.cpp 構建版本 b4282 開始，無法運行 Q4_0_X_X 文件，需使用 Q4_0。
另外，根據此 PR，可以使用 IQ4_NL 獲得更好的質量，它也會為 ARM 重新打包權重，但目前僅支持 4_4。加載時間可能會變長，但整體速度會提高。

📦 安裝指南

使用 huggingface - cli 下載

點擊查看下載說明

首先，確保已安裝 huggingface - cli：

pip install -U "huggingface_hub[cli]"

然後，可指定要下載的特定文件：

huggingface-cli download bartowski/mlabonne_gemma-3-4b-it-abliterated-GGUF --include "mlabonne_gemma-3-4b-it-abliterated-Q4_K_M.gguf" --local-dir ./

如果模型大於 50GB，會被拆分為多個文件。要將它們全部下載到本地文件夾，運行：

huggingface-cli download bartowski/mlabonne_gemma-3-4b-it-abliterated-GGUF --include "mlabonne_gemma-3-4b-it-abliterated-Q8_0/*" --local-dir ./

可以指定新的本地目錄（如 mlabonne_gemma - 3 - 4b - it - abliterated - Q8_0），也可以全部下載到當前目錄（./）。

💻 使用示例

下載文件

可從以下表格中選擇要下載的文件（非整個分支）：

文件名	量化類型	文件大小	拆分情況	描述
mmproj - gemma - 3 - 4b - it - abliterated - f32.gguf	f32	1.68GB	false	F32 格式的 MMPROJ 文件，視覺任務必需。
mmproj - gemma - 3 - 4b - it - abliterated - f16.gguf	f16	851MB	false	F16 格式的 MMPROJ 文件，視覺任務必需。
gemma - 3 - 4b - it - abliterated - bf16.gguf	bf16	7.77GB	false	全 BF16 權重。
gemma - 3 - 4b - it - abliterated - Q8_0.gguf	Q8_0	4.13GB	false	極高質量，通常不需要，但為最大可用量化。
gemma - 3 - 4b - it - abliterated - Q6_K_L.gguf	Q6_K_L	3.35GB	false	嵌入和輸出權重使用 Q8_0。非常高質量，接近完美，推薦。
gemma - 3 - 4b - it - abliterated - Q6_K.gguf	Q6_K	3.19GB	false	非常高質量，接近完美，推薦。
gemma - 3 - 4b - it - abliterated - Q5_K_L.gguf	Q5_K_L	2.99GB	false	嵌入和輸出權重使用 Q8_0。高質量，推薦。
gemma - 3 - 4b - it - abliterated - Q5_K_M.gguf	Q5_K_M	2.83GB	false	高質量，推薦。
gemma - 3 - 4b - it - abliterated - Q5_K_S.gguf	Q5_K_S	2.76GB	false	高質量，推薦。
gemma - 3 - 4b - it - abliterated - Q4_K_L.gguf	Q4_K_L	2.65GB	false	嵌入和輸出權重使用 Q8_0。質量良好，推薦。
gemma - 3 - 4b - it - abliterated - Q4_1.gguf	Q4_1	2.56GB	false	舊格式，性能與 Q4_K_S 相似，但在蘋果硅芯片上每瓦處理令牌數有所提高。
gemma - 3 - 4b - it - abliterated - Q4_K_M.gguf	Q4_K_M	2.49GB	false	質量良好，大多數用例的默認大小，推薦。
gemma - 3 - 4b - it - abliterated - Q3_K_XL.gguf	Q3_K_XL	2.40GB	false	嵌入和輸出權重使用 Q8_0。質量較低但可用，適合低內存情況。
gemma - 3 - 4b - it - abliterated - Q4_K_S.gguf	Q4_K_S	2.38GB	false	質量略低但節省空間，推薦。
gemma - 3 - 4b - it - abliterated - Q4_0.gguf	Q4_0	2.37GB	false	舊格式，支持 ARM 和 AVX CPU 推理的在線重新打包。
gemma - 3 - 4b - it - abliterated - IQ4_NL.gguf	IQ4_NL	2.36GB	false	與 IQ4_XS 相似，但略大。支持 ARM CPU 推理的在線重新打包。
gemma - 3 - 4b - it - abliterated - IQ4_XS.gguf	IQ4_XS	2.26GB	false	質量不錯，比 Q4_K_S 小且性能相似，推薦。
gemma - 3 - 4b - it - abliterated - Q3_K_L.gguf	Q3_K_L	2.24GB	false	質量較低但可用，適合低內存情況。
gemma - 3 - 4b - it - abliterated - Q3_K_M.gguf	Q3_K_M	2.10GB	false	質量低。
gemma - 3 - 4b - it - abliterated - IQ3_M.gguf	IQ3_M	1.99GB	false	中低質量，新方法，性能與 Q3_K_M 相當。
gemma - 3 - 4b - it - abliterated - Q3_K_S.gguf	Q3_K_S	1.94GB	false	質量低，不推薦。
gemma - 3 - 4b - it - abliterated - Q2_K_L.gguf	Q2_K_L	1.89GB	false	嵌入和輸出權重使用 Q8_0。質量非常低但意外可用。
gemma - 3 - 4b - it - abliterated - IQ3_XS.gguf	IQ3_XS	1.86GB	false	質量較低，新方法，性能不錯，略優於 Q3_K_S。
gemma - 3 - 4b - it - abliterated - Q2_K.gguf	Q2_K	1.73GB	false	質量非常低但意外可用。
gemma - 3 - 4b - it - abliterated - IQ3_XXS.gguf	IQ3_XXS	1.69GB	false	質量較低，新方法，性能不錯，與 Q3 量化相當。
gemma - 3 - 4b - it - abliterated - IQ2_M.gguf	IQ2_M	1.54GB	false	質量相對較低，採用先進技術，意外可用。

如何選擇文件

點擊查看詳情

Artefact2 提供了一篇很棒的文章，帶有展示各種性能的圖表，可查看此處。

首先，要確定能運行多大的模型。這需要了解自己有多少內存（RAM）和/或顯存（VRAM）。

如果希望模型運行儘可能快，應讓整個模型適應 GPU 的顯存。選擇文件大小比 GPU 總顯存小 1 - 2GB 的量化版本。
如果追求絕對最高質量，將系統內存和 GPU 顯存相加，然後選擇文件大小比該總和小 1 - 2GB 的量化版本。

接下來，需要決定使用“I - 量化”還是“K - 量化”。

如果不想過多思考，選擇 K - 量化版本，格式為“QX_K_X”，如 Q5_K_M。
如果想深入瞭解，可以查看這個非常有用的特性圖表：llama.cpp 特性矩陣。
- 一般來說，如果目標是低於 Q4 的量化，並且使用 cuBLAS（Nvidia）或 rocBLAS（AMD），應考慮 I - 量化版本，格式為 IQX_X，如 IQ3_M。這些是較新的版本，相同大小下性能更好。
- I - 量化版本也可在 CPU 上使用，但比對應的 K - 量化版本慢，因此需要在速度和性能之間做出權衡。
- I - 量化版本與 Vulcan（也是 AMD）不兼容，所以如果使用 AMD 顯卡，要確認是使用 rocBLAS 版本還是 Vulcan 版本。撰寫本文時，LM Studio 有支持 ROCm 的預覽版，其他推理引擎也有針對 ROCm 的特定版本。