Gemma 3-12bオープンソース大規模言語モデル - 無料でデプロイ可能、低メモリ要件で良好な性能

ホーム

Gemma 3 12b It Quantized W4A16

abhishekchohanによって開発

Gemma 3はGoogleが開発した命令チューニング大規模言語モデルで、このリポジトリでは12BパラメータのW4A16量子化バージョンを提供し、メモリ要件を大幅に削減しながら良好な性能を維持しています。

大規模言語モデル

Transformers

#4ビット量子化 #命令チューニングモデル #コンシューマーハードウェア展開

ダウンロード数 1,754

リリース時間 : 3/17/2025

モデル概要

Gemma 3 12B命令チューニングモデルの4ビット量子化バージョンで、コンシューマーハードウェア展開に適しており、ツール呼び出しと対話タスクをサポートします。

モデル特徴

効率的な量子化

W4A16量子化技術（4ビット重み+16ビット活性化値）を採用し、メモリ要件を大幅に削減

ツール呼び出しサポート

組み込みツール呼び出しパーサーにより、自動ツール選択をサポート

コンシューマーハードウェア対応

量子化後、コンシューマー向けGPUで効率的に動作

モデル能力

命令追従

マルチターン対話

ツール呼び出し

テキスト生成

使用事例

対話システム

インテリジェントアシスタント

低リソース消費の対話アシスタントとして展開

ツール統合

API呼び出しプロキシ

自然言語命令を解析し外部ツールを呼び出し

🚀 Gemma 3 量子化モデル

このリポジトリには、GoogleのGemma 3命令微調整モデルのW4A16量子化バージョンが含まれています。これにより、良好なパフォーマンスを維持しながら、消費者向けハードウェアでのデプロイがより容易になります。

✨ 主な機能

リポジトリ内には、Gemma 3の複数の量子化モデルが提供されています。
LLM Compressorを使用したW4A16量子化により、メモリ要件を大幅に削減しています。
vLLMを使用した簡単なモデルの利用方法が提供されています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

vllm serve abhishekchohan/gemma-3-{size}-it-quantized-W4A16 --chat-template templates/chat_template.jinja --enable-auto-tool-choice --tool-call-parser gemma --tool-parser-plugin tools/tool_parser.py

📚 ドキュメント

モデル

abhishekchohan/gemma-3-27b-it-quantized-W4A16
abhishekchohan/gemma-3-12b-it-quantized-W4A16
abhishekchohan/gemma-3-4b-it-quantized-W4A16

リポジトリ構造

gemma-3-{size}-it-quantized-W4A16/
├── README.md
├── templates/
│   └── chat_template.jinja
├── tools/
│   └── tool_parser.py
└── [model files]

量子化詳細

これらのモデルは、LLM Compressorを介したW4A16量子化を使用しています。

重みは4ビット精度に量子化されています。
活性化関数は16ビット精度を使用しています。
メモリ要件が大幅に削減されています。

📄 ライセンス

これらのモデルはGemmaライセンスの対象となります。ユーザーは、モデルを使用する前にライセンス条項を承認し受け入れる必要があります。

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

⚠️ 重要提示

Hugging FaceでGemmaにアクセスするには、Googleの利用規約を確認して同意する必要があります。これを行うには、Hugging Faceにログインし、以下をクリックしてください。リクエストはすぐに処理されます。

💡 使用建议

モデルを使用する前に、必ずGemmaのライセンス条項を確認して承認してください。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご