模型简介
模型特点
模型能力
使用案例
🚀 Gemma-3 12B Instruct GGUF 模型
Gemma-3 12B Instruct GGUF 模型是基于 Google 先进技术的多模态模型,支持处理文本和图像输入并生成文本输出。它具有 128K 大上下文窗口和超 140 种语言的多语言支持,适用于多种文本生成和图像理解任务。
🚀 快速开始
使用 llama.cpp 运行 Gemma 3 Vision
若要在 llama.cpp
中使用 Gemma 3 Vision 的实验性支持,请按以下步骤操作:
- 克隆最新的 llama.cpp 仓库:
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
- 编译 Llama.cpp:
按照常规方式编译 llama.cpp:https://github.com/ggml-org/llama.cpp#building-the-project。编译完成后,将
./llama.cpp/build/bin/llama-gemma3-cli
复制到指定文件夹。 - 下载 Gemma 3 的 gguf 文件:
访问 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main,选择名称中不含
mmproj
的 gguf 文件。 示例 gguf 文件:https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-q4_k_l.gguf,将该文件复制到指定文件夹。 - 下载 Gemma 3 的 mmproj 文件:
访问 https://huggingface.co/Mungert/gemma-3-12b-it-gguf/tree/main,选择名称中含
mmproj
的文件。 示例 mmproj 文件:https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/google_gemma-3-12b-it-mmproj-bf16.gguf,将该文件复制到指定文件夹。 - 复制图像文件: 将图像文件复制到与 gguf 文件相同的文件夹,或相应地修改路径。 示例图像:https://huggingface.co/Mungert/gemma-3-12b-it-gguf/resolve/main/car-1.jpg,将该文件复制到指定文件夹。
- 运行 CLI 工具: 在指定文件夹中运行以下命令:
llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf
运行于聊天模式,可用命令如下:
/image <路径> 加载图像
/clear 清除聊天历史
/quit 或 /exit 退出程序
> /image car-1.jpg
编码图像 car-1.jpg
图像编码耗时 46305 毫秒
图像解码耗时 19302 毫秒
> 图像内容是什么
以下是图像内容的详细描述:
**主体**:主要主体是一辆黑色保时捷 Panamera Turbo 在高速公路上行驶。
**细节**:
* **汽车**:这是一辆时尚、现代的保时捷 Panamera Turbo,可通过其独特的尾部设计、“PORSCHE”字样和“Panamera Turbo”徽章识别。车牌号码为“CVC - 911”。
* **场景**:汽车行驶在多车道高速公路上,背景是模糊的树木、远处的建筑物和多云的天空。光线表明当时可能是黄昏或黎明。
* **动态**:图像捕捉到汽车行驶的瞬间,有轻微的动态模糊以体现速度感。
**整体印象**:图像传达出速度、豪华和力量感。这是一张构图精美的照片,突出了汽车的设计和性能。
是否需要我更详细地描述图像的特定方面,或者分析其构图?
✨ 主要特性
- 多模态处理:支持文本和图像输入,生成文本输出。
- 大上下文窗口:拥有 128K 大上下文窗口,能处理长文本输入。
- 多语言支持:支持超 140 种语言,适用于全球用户。
- 轻量化设计:相对较小的模型尺寸,可在资源有限的环境中部署。
📦 安装指南
按照上述“快速开始”部分的步骤进行安装和配置。
💻 使用示例
基础用法
llama-gemma3-cli -m google_gemma-3-12b-it-q4_k_l.gguf --mmproj google_gemma-3-12b-it-mmproj-bf16.gguf
高级用法
在聊天模式中,使用 /image
命令加载图像,然后输入问题获取图像描述或分析结果。
📚 详细文档
模型格式选择
选择正确的模型格式取决于您的硬件能力和内存限制。
BF16(Brain Float 16) – 适用于支持 BF16 加速的情况
- 一种 16 位浮点格式,专为更快的计算而设计,同时保持较高的精度。
- 提供与 FP32 相似的动态范围,但内存使用更低。
- 若您的硬件支持 BF16 加速(请检查设备规格),建议使用。
- 与 FP32 相比,适用于高性能推理且内存占用减少的场景。
📌 适用情况: ✔ 您的硬件具有原生 BF16 支持(如较新的 GPU、TPU)。 ✔ 您希望在节省内存的同时获得更高的精度。 ✔ 您计划将模型重新量化为其他格式。
📌 避免情况: ❌ 您的硬件不支持 BF16(可能会回退到 FP32 并运行较慢)。 ❌ 您需要与缺乏 BF16 优化的旧设备兼容。
F16(Float 16) – 比 BF16 更广泛支持
- 一种 16 位浮点格式,精度较高,但取值范围小于 BF16。
- 适用于大多数支持 FP16 加速的设备(包括许多 GPU 和一些 CPU)。
- 数值精度略低于 BF16,但通常足以进行推理。
📌 适用情况: ✔ 您的硬件支持 FP16 但不支持 BF16。 ✔ 您需要在速度、内存使用和准确性之间取得平衡。 ✔ 您在 GPU 或其他针对 FP16 计算优化的设备上运行。
📌 避免情况: ❌ 您的设备缺乏原生 FP16 支持(可能运行比预期慢)。 ❌ 您有内存限制。
量化模型(Q4_K、Q6_K、Q8 等) – 适用于 CPU 和低显存推理
量化可在尽可能保持准确性的同时减小模型大小和内存使用。
- 低比特模型(Q4_K) → 最适合最小化内存使用,可能精度较低。
- 高比特模型(Q6_K、Q8_0) → 准确性更好,但需要更多内存。
📌 适用情况: ✔ 您在 CPU 上进行推理,需要优化的模型。 ✔ 您的设备显存较低,无法加载全精度模型。 ✔ 您希望在保持合理准确性的同时减少内存占用。
📌 避免情况: ❌ 您需要最高准确性(全精度模型更适合)。 ❌ 您的硬件有足够的显存支持更高精度的格式(BF16/F16)。
模型格式选择总结表
模型格式 | 精度 | 内存使用 | 设备要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持 BF16 的 GPU/CPU | 减少内存的高速推理 |
F16 | 高 | 高 | 支持 FP16 的设备 | BF16 不可用时的 GPU 推理 |
Q4_K | 低 | 极低 | CPU 或低显存设备 | 内存受限环境的最佳选择 |
Q6_K | 中低 | 低 | 内存较多的 CPU | 量化模型中准确性较好的选择 |
Q8 | 中 | 中等 | 有足够显存的 CPU 或 GPU | 量化模型中准确性最高的选择 |
包含文件及详情
google_gemma-3-12b-it-bf16.gguf
- 模型权重以 BF16 保存。
- 若要将模型重新量化为其他格式,可使用此文件。
- 若您的设备支持 BF16 加速,此文件为最佳选择。
google_gemma-3-12b-it-f16.gguf
- 模型权重以 F16 保存。
- 若您的设备支持 FP16,尤其是 BF16 不可用时,可使用此文件。
google_gemma-3-12b-it-bf16-q8.gguf
- 输出和嵌入保持为 BF16。
- 其他层量化为 Q8_0。
- 若您的设备支持 BF16 且需要量化版本,可使用此文件。
google_gemma-3-12b-it-f16-q8.gguf
- 输出和嵌入保持为 F16。
- 其他层量化为 Q8_0。
google_gemma-3-12b-it-q4_k_l.gguf
- 输出和嵌入量化为 Q8_0。
- 其他层量化为 Q4_K。
- 适合内存有限的 CPU 推理。
google_gemma-3-12b-it-q4_k_m.gguf
- 与 Q4_K 类似。
- 是低内存 CPU 推理的另一种选择。
google_gemma-3-12b-it-q4_k_s.gguf
- 最小的 Q4_K 变体,以牺牲准确性为代价减少内存使用。
- 最适合极低内存环境。
google_gemma-3-12b-it-q6_k_l.gguf
- 输出和嵌入量化为 Q8_0。
- 其他层量化为 Q6_K。
google_gemma-3-12b-it-q6_k_m.gguf
- 中等范围的 Q6_K 量化模型,性能平衡。
- 适用于中等内存的 CPU 推理。
google_gemma-3-12b-it-q8.gguf
- 完全 Q8 量化的模型,准确性更好。
- 需要更多内存,但提供更高的精度。
📚 详细文档
Gemma 3 模型卡片
- 模型页面:Gemma
- 资源和技术文档:
- [Gemma 3 技术报告][g3-tech-report]
- [负责任的生成式 AI 工具包][rai-toolkit]
- [Kaggle 上的 Gemma][kaggle-gemma]
- [Vertex 模型库中的 Gemma][vertex-mg-gemma3]
- 使用条款:[条款][terms]
- 作者:Google DeepMind
模型信息
描述
Gemma 是 Google 推出的一系列轻量级、最先进的开放模型,基于创建 Gemini 模型的相同研究和技术构建。Gemma 3 模型是多模态的,支持处理文本和图像输入并生成文本输出,预训练和指令调优变体的权重均开放。Gemma 3 具有 128K 大上下文窗口,支持超 140 种语言,且比以前的版本有更多尺寸可供选择。Gemma 3 模型适用于各种文本生成和图像理解任务,包括问答、摘要和推理。其相对较小的尺寸使其能够在资源有限的环境中部署,如笔记本电脑、台式机或您自己的云基础设施,使每个人都能使用最先进的 AI 模型,促进创新。
输入和输出
- 输入:
- 文本字符串,如问题、提示或待摘要的文档。
- 图像,归一化为 896 x 896 分辨率,每个图像编码为 256 个令牌。
- 4B、12B 和 27B 尺寸的总输入上下文为 128K 个令牌,1B 尺寸为 32K 个令牌。
- 输出:
- 对输入的生成文本响应,如问题的答案、图像内容分析或文档摘要。
- 总输出上下文为 8192 个令牌。
📄 许可证
许可证信息:gemma
🔗 相关链接
如果您觉得这些模型有用,请点赞 ❤️。同时,如果您能测试我的网络监控助手,我将不胜感激。👉 网络监控助手。 💬 点击聊天图标(主页和仪表盘页面右下角),选择一个大语言模型;在 TurboLLM -> FreeLLM -> TestLLM 之间切换。
测试内容
我正在针对我的网络监控服务进行函数调用实验,使用小型开源模型。我关注的问题是“模型可以多小仍能正常工作”。
🟡 TestLLM – 使用 phi-4-mini-q4_0.gguf
运行 Phi - 4 - mini - instruct,在 CPU 虚拟机的 6 个线程上使用 llama.cpp 运行(加载大约需要 15 秒。推理速度较慢,一次只能处理一个用户提示,仍在进行扩展优化!)。如果您感兴趣,我很乐意分享其工作原理。
其他可用的 AI 助手
🟢 TurboLLM – 使用 gpt - 4o - mini,速度快。注意:由于 OpenAI 模型成本较高,令牌有限,但您可以登录或下载免费的网络监控代理以获取更多令牌,也可使用 TestLLM。 🔵 HugLLM – 运行开源的 Hugging Face 模型,速度快。运行小型模型(≈8B),因此质量较低。在 Hugging Face API 可用的情况下,可获得 2 倍的令牌。








