Llama-3-8B-Instruct-GPTQ-4ビットオープンソースモデル - 低VRAMデバイスでも高効率に動作するAIチャットヘルパー

ホーム

Llama 3 8B Instruct GPTQ 4 Bit

astronomerによって開発

これはMeta Llama 3をベースに構築された4ビット量子化GPTQモデルで、Astronomerによって量子化され、低VRAMデバイスで効率的に動作します。

大規模言語モデル

Transformers

オープンソースライセンス:その他 #低リソース推論 #4ビット量子化 #命令微調整

ダウンロード数 2,059

リリース時間 : 4/19/2024

モデル概要

このモデルはMeta-Llama-3-8B-Instructの4ビット量子化バージョンで、リソースが限られたGPU上で効率的に動作するように最適化されており、高い生成品質を維持しています。

モデル特徴

効率的な量子化

4ビットGPTQ量子化技術により、モデルサイズとVRAM要件を大幅に削減しながら、高い生成品質を維持します。

低リソース動作

6GB未満のVRAMを搭載したデバイスで動作可能で、Nvidia T4、K80などのエントリーレベルGPUに適しています。

最適化された推論

vLLMやtext-generation-webuiなどのさまざまな推論フレームワークをサポートし、効率的なテキスト生成サービスを提供します。

モデル能力

命令追従

テキスト生成

質問応答システム

対話システム

使用事例

対話システム

インテリジェントアシスタント

迅速な応答と高い理解力を備えた対話アシスタントを構築

リソースが限られた環境でもスムーズな対話体験を提供可能

コンテンツ生成

テキスト作成

さまざまなタイプのテキストコンテンツを生成

元のモデルの90%以上の生成品質を維持

🚀 Llama-3-8B-Instruct-GPTQ-4-Bit

このモデルは、Meta Llama 3をベースに構築された4ビット量子化GPTQモデルです。VRAM使用量を大幅に削減し、低コストのNVIDIA GPUで高速にサービングすることが可能です。

🚀 クイックスタート

このモデルを使用する前に、以下の情報を確認してください。

モデル情報

Property	Details
ベースモデル	meta-llama/Meta-Llama-3-8B-Instruct
モデル作成者	astronomer-io
モデル名	Meta-Llama-3-8B-Instruct
モデルタイプ	llama
パイプラインタグ	text-generation
プロンプトテンプレート	"{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<
量子化担当者	davidxmle
ライセンス	other
ライセンス名	llama-3-community-license
ライセンスリンク	https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/blob/main/LICENSE
タグ	llama, llama-3, facebook, meta, astronomer, gptq, pretrained, quantized, finetuned, autotrain_compatible, endpoints_compatible
データセット	wikitext

重要な注意事項

⚠️ 重要提示

vLLMでこのモデルをロードする場合、すべてのリクエストに "stop_token_ids":[128001, 128009] を含めて、一時的に非停止生成の問題を解決してください。vLLMはまだ generation_config.json を尊重していません。vLLMチームはこの問題の修正に取り組んでいます。https://github.com/vllm-project/vllm/issues/4180

oobabooga/text-generation-webuiで使用する場合、AutoGPTQを介してモデルをロードし、 no_inject_fused_attention を有効にしてください。これはAutoGPTQライブラリのバグです。

Parameters -> Generation -> Skip special tokens をオフにしてください。

Parameters -> Generation -> Custom stopping strings に "<|end_of_text|>","<|eot_id|>" を追加してください。

✨ 主な機能

4ビット量子化により、VRAM使用量を大幅に削減（元の16.07GBから6GB未満）
安価なNVIDIA GPU（Nvidia T4、Nvidia K80、RTX 4070など）で高速にサービング可能
元の bfloat16 モデルと比較して、わずかな品質低下ですが、より小さなGPUでのサービングが可能

📦 インストール

vLLMを使用してこのモデルをサービングするには、以下のコマンドを実行します。

python -m vllm.entrypoints.openai.api_server --model astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit --max-model-len 8192 --dtype float16

💻 使用例

基本的な使用法

{
    "model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who created Llama 3?"}
        ],
    "max_tokens": 2000,
    "stop_token_ids":[128001,128009]
}

プロンプトテンプレート

<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{{prompt}}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>

📚 ドキュメント

GPTQ量子化方法

このモデルは、AutoGPTQライブラリを利用して量子化されており、GPTQ論文で示されたベストプラクティスに従っています。
量子化は、指定されたデータセット（現時点ではwikitext）からのランダムサンプルを使用してキャリブレーションおよびアライメントされており、精度の損失を最小限に抑えています。

ブランチ	ビット数	グループサイズ	Act Order	減衰率	GPTQデータセット	シーケンス長	VRAMサイズ	ExLlama	説明
main	4	128	Yes	0.1	wikitext	8192	5.74 GB	Yes	4ビット、Act Order付き、グループサイズ128g。精度の損失が少ない最小のモデル
今後のバリアント	TBD	TBD	TBD	TBD	TBD	TBD	TBD	TBD	将来的に、128gグループサイズなどの異なるパラメータを使用した追加のGPTQ 4ビットモデルのバリアントをアップロードする可能性があります。