🚀 Llama-3-8B-Instruct-GPTQ-4-Bit
このモデルは、Meta Llama 3をベースに構築された4ビット量子化GPTQモデルです。VRAM使用量を大幅に削減し、低コストのNVIDIA GPUで高速にサービングすることが可能です。
🚀 クイックスタート
このモデルを使用する前に、以下の情報を確認してください。
モデル情報
Property |
Details |
ベースモデル |
meta-llama/Meta-Llama-3-8B-Instruct |
モデル作成者 |
astronomer-io |
モデル名 |
Meta-Llama-3-8B-Instruct |
モデルタイプ |
llama |
パイプラインタグ |
text-generation |
プロンプトテンプレート |
"{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '< |
量子化担当者 |
davidxmle |
ライセンス |
other |
ライセンス名 |
llama-3-community-license |
ライセンスリンク |
https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/blob/main/LICENSE |
タグ |
llama, llama-3, facebook, meta, astronomer, gptq, pretrained, quantized, finetuned, autotrain_compatible, endpoints_compatible |
データセット |
wikitext |
重要な注意事項
⚠️ 重要提示
- vLLMでこのモデルをロードする場合、すべてのリクエストに
"stop_token_ids":[128001, 128009]
を含めて、一時的に非停止生成の問題を解決してください。vLLMはまだ generation_config.json
を尊重していません。vLLMチームはこの問題の修正に取り組んでいます。https://github.com/vllm-project/vllm/issues/4180
- oobabooga/text-generation-webuiで使用する場合、AutoGPTQを介してモデルをロードし、
no_inject_fused_attention
を有効にしてください。これはAutoGPTQライブラリのバグです。
Parameters
-> Generation
-> Skip special tokens
をオフにしてください。
Parameters
-> Generation
-> Custom stopping strings
に "<|end_of_text|>","<|eot_id|>"
を追加してください。
✨ 主な機能
- 4ビット量子化により、VRAM使用量を大幅に削減(元の16.07GBから6GB未満)
- 安価なNVIDIA GPU(Nvidia T4、Nvidia K80、RTX 4070など)で高速にサービング可能
- 元の
bfloat16
モデルと比較して、わずかな品質低下ですが、より小さなGPUでのサービングが可能
📦 インストール
vLLMを使用してこのモデルをサービングするには、以下のコマンドを実行します。
python -m vllm.entrypoints.openai.api_server --model astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit --max-model-len 8192 --dtype float16
💻 使用例
基本的な使用法
{
"model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who created Llama 3?"}
],
"max_tokens": 2000,
"stop_token_ids":[128001,128009]
}
プロンプトテンプレート
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{{prompt}}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
📚 ドキュメント
GPTQ量子化方法
- このモデルは、AutoGPTQライブラリを利用して量子化されており、GPTQ論文で示されたベストプラクティスに従っています。
- 量子化は、指定されたデータセット(現時点ではwikitext)からのランダムサンプルを使用してキャリブレーションおよびアライメントされており、精度の損失を最小限に抑えています。
ブランチ |
ビット数 |
グループサイズ |
Act Order |
減衰率 |
GPTQデータセット |
シーケンス長 |
VRAMサイズ |
ExLlama |
説明 |
main |
4 |
128 |
Yes |
0.1 |
wikitext |
8192 |
5.74 GB |
Yes |
4ビット、Act Order付き、グループサイズ128g。精度の損失が少ない最小のモデル |
今後のバリアント |
TBD |
TBD |
TBD |
TBD |
TBD |
TBD |
TBD |
TBD |
将来的に、128gグループサイズなどの異なるパラメータを使用した追加のGPTQ 4ビットモデルのバリアントをアップロードする可能性があります。 |
貢献者
📄 ライセンス
このモデルは、llama-3-community-licenseの下で提供されています。