🚀 Llama-3-8B-Instruct-GPTQ-4-Bit
本項目提供了 meta-llama/Meta-Llama-3-8B-Instruct 的4位量化GPTQ模型文件。該模型能以不到6GB的VRAM加載,相比原16.07GB的模型大幅減少了內存需求,並且可以使用如Nvidia T4、Nvidia K80、RTX 4070等較便宜的Nvidia GPU實現快速服務。
🚀 快速開始
使用vLLM服務此GPTQ模型
已使用Nvidia T4(16GB VRAM)通過vLLM測試服務此模型。使用以下命令進行測試:
python -m vllm.entrypoints.openai.api_server --model astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit --max-model-len 8192 --dtype float16
對於不停生成令牌的問題,請確保向vLLM端點發送包含 stop_token_ids":[128001, 128009]
的請求。示例如下:
{
"model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who created Llama 3?"}
],
"max_tokens": 2000,
"stop_token_ids":[128001,128009]
}
提示模板
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{{prompt}}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
✨ 主要特性
- 該模型由 Astronomer 慷慨創建並開源。Astronomer是 Apache Airflow 領域的領先公司,Apache Airflow是數據編排和MLOps領域最受信任的開源框架。
- 4位GPTQ量化模型在原始
bfloat16
模型的基礎上,質量有輕微下降,但可以在更小的GPU上運行,同時顯著提高延遲和吞吐量。
📦 安裝指南
暫未提供相關安裝步驟。
💻 使用示例
暫未提供相關代碼示例。
📚 詳細文檔
模型信息
屬性 |
詳情 |
基礎模型 |
meta-llama/Meta-Llama-3-8B-Instruct |
推理 |
false |
模型創建者 |
astronomer-io |
模型名稱 |
Meta-Llama-3-8B-Instruct |
模型類型 |
llama |
任務類型 |
文本生成 |
提示模板 |
"{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '< |
量化者 |
davidxmle |
許可證 |
other |
許可證名稱 |
llama-3-community-license |
許可證鏈接 |
https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/blob/main/LICENSE |
標籤 |
llama, llama-3, facebook, meta, astronomer, gptq, pretrained, quantized, finetuned, autotrain_compatible, endpoints_compatible |
數據集 |
wikitext |
GPTQ量化方法
- 本模型使用AutoGPTQ庫進行量化,遵循 GPTQ論文 中提到的最佳實踐。
- 量化過程使用指定數據集(目前為wikitext)的隨機樣本進行校準和對齊,以最小化精度損失。
分支 |
位數 |
組大小 |
激活順序 |
阻尼百分比 |
GPTQ數據集 |
序列長度 |
VRAM大小 |
ExLlama |
描述 |
main |
4 |
128 |
是 |
0.1 |
wikitext |
8192 |
5.74 GB |
是 |
4位量化,有激活順序,組大小為128g。在精度損失較小的情況下,模型體積最小 |
更多變體待發布 |
待定 |
待定 |
待定 |
待定 |
待定 |
待定 |
待定 |
待定 |
未來可能會上傳使用不同參數(如128g組大小等)的GPTQ 4位模型的其他變體 |
服務注意事項
⚠️ 重要提示
- 對於vLLM,加載此模型時,確保所有請求都包含
"stop_token_ids":[128001, 128009]
,以暫時解決不停生成的問題。vLLM目前不支持 generation_config.json
,vLLM團隊正在 此處 修復此問題。
- 對於oobabooga/text-generation-webui,通過AutoGPTQ加載模型時,啟用
no_inject_fused_attention
,這是AutoGPTQ庫的一個bug。在 Parameters
-> Generation
-> Skip special tokens
中關閉此選項(取消選擇),並在 Parameters
-> Generation
-> Custom stopping strings
字段中添加 "<|end_of_text|>","<|eot_id|>"
。
貢獻者
🔧 技術細節
暫未提供相關技術細節。
📄 許可證
本模型使用 llama-3-community-license 許可證。