Google Gemma 3B GGUF量化版開源模型 - 支持本地推理與文本生成任務

首頁

Gemma 3 12b It Q5 K S GGUF

由NikolayKozloff開發

這是Google Gemma 3B模型的GGUF量化版本，適用於本地推理，支持文本生成任務。

大型語言模型 #高效推理優化 #輕量化部署 #多輪對話支持

下載量 16

發布時間 : 3/12/2025

模型概述

基於Google Gemma 3B模型轉換的GGUF格式版本，主要用於文本生成任務，可在本地環境中高效運行。

模型特點

本地高效推理

通過GGUF格式優化，可在消費級硬件上高效運行

量化版本

採用Q5_K_S量化級別，平衡模型大小和推理質量

簡單部署

可通過llama.cpp輕鬆部署，無需複雜環境配置

模型能力

文本生成

對話系統

問答系統

內容創作

使用案例

內容生成

創意寫作

生成故事、詩歌等創意內容

可生成連貫、有創意的文本

對話系統

智能助手

構建本地運行的對話助手

可實現流暢的對話交互

🚀 NikolayKozloff/gemma-3-12b-it-Q5_K_S-GGUF

本項目將模型從 google/gemma-3-12b-it 轉換為 GGUF 格式。藉助 llama.cpp 和 ggml.ai 的 GGUF-my-repo 空間完成轉換。如需瞭解該模型的更多詳細信息，請參考原始模型卡片。

🚀 快速開始

本模型可通過 llama.cpp 進行使用。下面將介紹使用 llama.cpp 的具體步驟。

📦 安裝指南

可通過 brew（適用於 Mac 和 Linux）安裝 llama.cpp：

brew install llama.cpp

💻 使用示例

基礎用法

可以通過 CLI 或 Server 調用模型。

CLI 方式

llama-cli --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_S-GGUF --hf-file gemma-3-12b-it-q5_k_s.gguf -p "The meaning to life and the universe is"

Server 方式

llama-server --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_S-GGUF --hf-file gemma-3-12b-it-q5_k_s.gguf -c 2048

高級用法

你也可以直接按照 Llama.cpp 倉庫中列出的使用步驟來使用此檢查點。

步驟 1：從 GitHub 克隆 llama.cpp

git clone https://github.com/ggerganov/llama.cpp

步驟 2：進入 llama.cpp 文件夾並使用 `LLAMA_CURL=1` 標誌以及其他特定於硬件的標誌（例如，在 Linux 上使用英偉達 GPU 時使用 `LLAMA_CUDA=1`）進行編譯

cd llama.cpp && LLAMA_CURL=1 make

步驟 3：通過主二進制文件運行推理

./llama-cli --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_S-GGUF --hf-file gemma-3-12b-it-q5_k_s.gguf -p "The meaning to life and the universe is"

或者

./llama-server --hf-repo NikolayKozloff/gemma-3-12b-it-Q5_K_S-GGUF --hf-file gemma-3-12b-it-q5_k_s.gguf -c 2048

📄 許可證

本項目使用的許可證為 gemma。

📋 模型信息

屬性	詳情
基礎模型	google/gemma-3-12b-it
庫名稱	transformers
許可證	gemma
任務類型	image-text-to-text
標籤	llama-cpp、gguf-my-repo

⚠️ 重要提示

若要在 Hugging Face 上使用 Gemma，你需要查看並同意 Google 的使用許可。請確保你已登錄 Hugging Face，然後點擊下方按鈕。請求將立即處理。

💡 使用建議

點擊下面的按鈕確認許可：Acknowledge license

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Gemma 3 12b It Q5 K S GGUF

模型概述

模型特點

模型能力

使用案例

🚀 NikolayKozloff/gemma-3-12b-it-Q5_K_S-GGUF

🚀 快速開始

📦 安裝指南

💻 使用示例

基礎用法

CLI 方式

Server 方式

高級用法

步驟 1：從 GitHub 克隆 llama.cpp

步驟 2：進入 llama.cpp 文件夾並使用 LLAMA_CURL=1 標誌以及其他特定於硬件的標誌（例如，在 Linux 上使用英偉達 GPU 時使用 LLAMA_CUDA=1）進行編譯

步驟 3：通過主二進制文件運行推理

📄 許可證

📋 模型信息

步驟 2：進入 llama.cpp 文件夾並使用 `LLAMA_CURL=1` 標誌以及其他特定於硬件的標誌（例如，在 Linux 上使用英偉達 GPU 時使用 `LLAMA_CUDA=1`）進行編譯