Gemma 3-27bオープンソース大規模言語モデル - 量子化バージョンでハードウェア要件を大幅に削減し、無料でデプロイ可能

ホーム

Gemma 3 27b It Quantized W4A16

abhishekchohanによって開発

Gemma 3はGoogleが開発した命令調整大規模言語モデルで、このリポジトリでは27BパラメータのW4A16量子化バージョンを提供し、ハードウェア要件を大幅に低減

大規模言語モデル

Transformers

#4ビット量子化 #命令微調整 #コンシューマー向けデプロイ

ダウンロード数 640

リリース時間 : 3/17/2025

モデル概要

Gemma 3はGoogleが開発した効率的な大規模言語モデルで、命令調整により対話能力が最適化されています。この量子化バージョンでは4ビット重みと16ビット活性化値の量子化により、コンシューマー向けハードウェアで実行可能

モデル特徴

効率的な量子化

W4A16量子化技術を採用し、重みを4ビット精度に圧縮、メモリ要件を大幅に低減

命令調整

専用の命令調整を経て、対話とタスク実行能力を最適化

ツールサポート

組み込みのツール呼び出し機能を備え、自動ツール選択と解析をサポート

モデル能力

テキスト生成

マルチターン対話

ツール呼び出し

命令理解

マルチモーダル理解（推測、image-text-to-textタグに基づく）

使用事例

対話システム

インテリジェントアシスタント

個人または企業向けのインテリジェントアシスタントとしてデプロイ

流暢で自然な対話体験を提供

開発ツール

コードアシスタント

開発者がコード生成と説明タスクを完了するのを支援

🚀 Gemma 3 量子化モデル

このリポジトリには、GoogleのGemma 3命令微調整モデルのW4A16量子化バージョンが含まれています。これにより、良好なパフォーマンスを維持しながら、一般消費者向けハードウェアでのデプロイがより容易になります。

🚀 クイックスタート

このリポジトリの量子化モデルを使用することで、一般的なハードウェアでもGemma 3モデルを活用できます。以下に各セクションで詳細を説明します。

✨ 主な機能

量子化モデルの提供：W4A16量子化を用いたGemma 3モデルを提供し、メモリ要件を大幅に削減。
vLLMでの利用可能：vLLMを使用して簡単にモデルをサーブできる。

📦 インストール

このリポジトリでは、モデルを直接利用するためのインストール手順は特に必要ありません。ただし、vLLMでモデルをサーブする場合は、vLLMのインストールが必要です。

💻 使用例

基本的な使用法

vllm serve abhishekchohan/gemma-3-{size}-it-quantized-W4A16 --chat-template templates/chat_template.jinja --enable-auto-tool-choice --tool-call-parser gemma --tool-parser-plugin tools/tool_parser.py

📚 ドキュメント

モデル

abhishekchohan/gemma-3-27b-it-quantized-W4A16
abhishekchohan/gemma-3-12b-it-quantized-W4A16
abhishekchohan/gemma-3-4b-it-quantized-W4A16

リポジトリ構造

gemma-3-{size}-it-quantized-W4A16/
├── README.md
├── templates/
│   └── chat_template.jinja
├── tools/
│   └── tool_parser.py
└── [model files]

量子化の詳細

これらのモデルは、LLM Compressorを介してW4A16量子化を使用しています。

重みは4ビット精度に量子化
活性化関数は16ビット精度を使用
メモリ要件が大幅に削減

🔧 技術詳細

このリポジトリの量子化モデルは、LLM Compressorを用いてW4A16量子化を行っています。これにより、重みを4ビット精度に量子化し、活性化関数を16ビット精度で保持することで、メモリ使用量を大幅に削減しています。

📄 ライセンス

これらのモデルはGemmaライセンスの対象となります。モデルを使用する前に、ユーザーはライセンス条項を承認し受け入れる必要があります。

アクセスに関する注意事項

⚠️ 重要提示

Hugging FaceでGemmaにアクセスするには、Googleの使用許諾契約を確認して同意する必要があります。これを行うには、Hugging Faceにログインし、下のボタンをクリックしてください。リクエストはすぐに処理されます。

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご