Google Gemma 3Bモデルの量子化バージョン - オープンソースでローカルデプロイと推論アプリケーションをサポート

ホーム

Gemma 3 4b It Q8 0 GGUF

NikolayKozloffによって開発

これはGoogle Gemma 3BモデルのGGUF量子化バージョンで、ローカルデプロイと推論に適しています。

大規模言語モデル #量子化推論最適化 #軽量デプロイ #マルチターン対話

ダウンロード数 56

リリース時間 : 3/12/2025

モデル概要

Google Gemma 3Bモデルを変換したGGUFフォーマット版で、主にテキスト生成タスクに使用され、ローカル環境での効率的な実行をサポートします。

モデル特徴

効率的なローカル推論

GGUFフォーマットにより最適化され、コンシューマーグレードのハードウェアで効率的に動作

量子化バージョン

Q8_0量子化バージョンで、高い精度を維持しながらメモリ使用量を削減

簡単なデプロイ

llama.cppツールチェーンによる迅速なデプロイと使用をサポート

モデル能力

テキスト生成

対話システム

コンテンツ作成

使用事例

コンテンツ生成

クリエイティブライティング

ストーリーや詩などのクリエイティブコンテンツを生成

Q&Aシステム

ローカル知識ベースの質問応答アプリを構築

開発支援

コード生成

プログラミング支援やコード補完

🚀 NikolayKozloff/gemma-3-4b-it-Q8_0-GGUF

このモデルは、google/gemma-3-4b-it から、llama.cppを使用してggml.aiの GGUF-my-repo スペースを介してGGUF形式に変換されました。モデルの詳細については、元のモデルカードを参照してください。

🚀 クイックスタート

このモデルを使用するには、まずllama.cppをインストールし、その後CLIまたはサーバーを起動して推論を実行する必要があります。

✨ 主な機能

元の google/gemma-3-4b-it モデルをGGUF形式に変換しています。
llama.cppを通じてCLIまたはサーバーでの使用が可能です。

📦 インストール

llama.cppのインストール

brewを使用してllama.cppをインストールします（MacとLinuxで動作します）。

brew install llama.cpp

💻 使用例

基本的な使用法

CLIでの使用

llama-cli --hf-repo NikolayKozloff/gemma-3-4b-it-Q8_0-GGUF --hf-file gemma-3-4b-it-q8_0.gguf -p "The meaning to life and the universe is"

サーバーでの使用

llama-server --hf-repo NikolayKozloff/gemma-3-4b-it-Q8_0-GGUF --hf-file gemma-3-4b-it-q8_0.gguf -c 2048

高度な使用法

llama.cppをGitHubからクローンする

git clone https://github.com/ggerganov/llama.cpp

llama.cppフォルダに移動し、ビルドする

cd llama.cpp && LLAMA_CURL=1 make

メインバイナリを通じて推論を実行する

./llama-cli --hf-repo NikolayKozloff/gemma-3-4b-it-Q8_0-GGUF --hf-file gemma-3-4b-it-q8_0.gguf -p "The meaning to life and the universe is"

または

./llama-server --hf-repo NikolayKozloff/gemma-3-4b-it-Q8_0-GGUF --hf-file gemma-3-4b-it-q8_0.gguf -c 2048

📄 ライセンス

このモデルはgemmaライセンスの下で提供されています。Hugging Face上でGemmaにアクセスするには、Googleの使用許諾書を確認して同意する必要があります。これを行うには、Hugging Faceにログインし、下のボタンをクリックしてください。リクエストはすぐに処理されます。

属性	详情
モデルタイプ	変換されたGGUF形式のモデル
トレーニングデータ	元の `google/gemma-3-4b-it` モデルのトレーニングデータ

⚠️ 重要提示

Hugging Face上でGemmaにアクセスするには、Googleの使用許諾書を確認して同意する必要があります。

💡 使用建议

llama.cppを使用する際には、ハードウェア固有のフラグ（例：LinuxのNvidia GPUの場合は LLAMA_CUDA=1）を使用してパフォーマンスを向上させることができます。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご