Gemma 3オープンソース軽量級大規模言語モデル - 4BパラメータW4A16量子化版、ハードウェアデプロイメントの敷居を下げる

ホーム

Gemma 3 4b It Quantized W4A16

abhishekchohanによって開発

Gemma 3はGoogleが開発した軽量オープンソース大規模言語モデルで、このリポジトリでは4Bパラメータ版のW4A16量子化モデルを提供し、ハードウェア要件を大幅に低減します。

大規模言語モデル

Transformers

#W4A16量子化 #命令チューニング #コンシューマー向けデプロイ

ダウンロード数 592

リリース時間 : 3/17/2025

モデル概要

Gemma 3命令チューニングモデルに基づく4ビット重み量子化バージョンで、コンシューマー向けハードウェアデプロイに適し、良好な性能を維持しながらメモリ使用量を削減します。

モデル特徴

効率的な量子化

W4A16量子化技術を採用し、重みを4ビット精度に量子化し、活性化値を16ビット精度に保持することで、メモリ要件を大幅に低減します。

命令チューニング

命令チューニングにより最適化され、自然言語命令をより良く理解し実行できます。

コンシューマー向けハードウェア対応

量子化されたモデルはコンシューマー向けGPUやCPUでの実行に適しており、デプロイのハードルを下げます。

モデル能力

自然言語理解

テキスト生成

命令実行

対話インタラクション

使用事例

インテリジェントアシスタント

チャットボット

応答が速く理解力の高い対話システムを構築

流暢で自然な対話体験

コンテンツ生成

テキスト作成

執筆補助、要約作成などのタスクを支援

高品質なテキスト出力

🚀 Gemma 3 量子化モデル

このリポジトリには、GoogleのGemma 3命令微調整モデルのW4A16量子化バージョンが含まれています。これにより、良好なパフォーマンスを維持しながら、一般消費者向けのハードウェアでのデプロイが容易になります。

🚀 クイックスタート

このリポジトリでは、GoogleのGemma 3命令微調整モデルの量子化バージョンを提供しています。以下の手順で使用を開始できます。

✨ 主な機能

一般消費者向けハードウェアでのデプロイが容易
良好なパフォーマンスを維持

📚 ドキュメント

🔍 モデル

abhishekchohan/gemma-3-27b-it-quantized-W4A16
abhishekchohan/gemma-3-12b-it-quantized-W4A16
abhishekchohan/gemma-3-4b-it-quantized-W4A16

📁 リポジトリ構造

gemma-3-{size}-it-quantized-W4A16/
├── README.md
├── templates/
│   └── chat_template.jinja
├── tools/
│   └── tool_parser.py
└── [model files]

🔧 量子化の詳細

これらのモデルは、LLM Compressorを介したW4A16量子化を使用しています。

重みは4ビット精度に量子化
活性化関数は16ビット精度を使用
メモリ要件が大幅に削減

💻 使用例

基本的な使用法

vllm serve abhishekchohan/gemma-3-{size}-it-quantized-W4A16 --chat-template templates/chat_template.jinja --enable-auto-tool-choice --tool-call-parser gemma --tool-parser-plugin tools/tool_parser.py

📄 ライセンス

これらのモデルはGemmaライセンスの対象となります。ユーザーはモデルを使用する前に、ライセンス条項を承認し受け入れる必要があります。

📚 引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

⚠️ 重要提示

Hugging FaceでGemmaにアクセスするには、Googleの使用許諾契約を確認して同意する必要があります。これを行うには、Hugging Faceにログインし、以下をクリックしてください。リクエストはすぐに処理されます。

💡 使用建议

モデルを使用する前に、Gemmaのライセンス条項を必ず確認して承認してください。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご