Llama-3-8B-Instruct-GPTQ-4-Bit開源模型 - 低VRAM設備也能高效運行的AI對話幫手

首頁

Llama 3 8B Instruct GPTQ 4 Bit

由astronomer開發

這是一個基於Meta Llama 3構建的4位量化GPTQ模型，由Astronomer量化，可在低VRAM設備上高效運行。

大型語言模型

Transformers

開源協議:其他 #低資源推理 #4位量化 #指令微調

下載量 2,059

發布時間 : 4/19/2024

模型概述

該模型是Meta-Llama-3-8B-Instruct的4位量化版本，專為在資源有限的GPU上高效運行而優化，同時保持較高的生成質量。

模型特點

高效量化

4位GPTQ量化技術顯著減少模型大小和VRAM需求，同時保持較高的生成質量。

低資源運行

可在不到6GB VRAM的設備上運行，適合Nvidia T4、K80等入門級GPU。

優化推理

支持vLLM和text-generation-webui等多種推理框架，提供高效的文本生成服務。

模型能力

指令跟隨

文本生成

問答系統

對話系統

使用案例

對話系統

智能助手

構建響應迅速、理解力強的對話助手

可在資源有限的環境中提供流暢的對話體驗

內容生成

文本創作

生成各種類型的文本內容

保持原始模型90%以上的生成質量

🚀 Llama-3-8B-Instruct-GPTQ-4-Bit

本項目提供了 meta-llama/Meta-Llama-3-8B-Instruct 的4位量化GPTQ模型文件。該模型能以不到6GB的VRAM加載，相比原16.07GB的模型大幅減少了內存需求，並且可以使用如Nvidia T4、Nvidia K80、RTX 4070等較便宜的Nvidia GPU實現快速服務。

🚀 快速開始

使用vLLM服務此GPTQ模型

已使用Nvidia T4（16GB VRAM）通過vLLM測試服務此模型。使用以下命令進行測試：

python -m vllm.entrypoints.openai.api_server --model astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit --max-model-len 8192 --dtype float16

對於不停生成令牌的問題，請確保向vLLM端點發送包含 stop_token_ids":[128001, 128009] 的請求。示例如下：

{
    "model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
    "messages": [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who created Llama 3?"}
        ],
    "max_tokens": 2000,
    "stop_token_ids":[128001,128009]
}

提示模板

<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{{prompt}}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>

✨ 主要特性

該模型由 Astronomer 慷慨創建並開源。Astronomer是 Apache Airflow 領域的領先公司，Apache Airflow是數據編排和MLOps領域最受信任的開源框架。
4位GPTQ量化模型在原始 bfloat16 模型的基礎上，質量有輕微下降，但可以在更小的GPU上運行，同時顯著提高延遲和吞吐量。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

暫未提供相關代碼示例。

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	meta-llama/Meta-Llama-3-8B-Instruct
推理	false
模型創建者	astronomer-io
模型名稱	Meta-Llama-3-8B-Instruct
模型類型	llama
任務類型	文本生成
提示模板	"{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<
量化者	davidxmle
許可證	other
許可證名稱	llama-3-community-license
許可證鏈接	https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/blob/main/LICENSE
標籤	llama, llama-3, facebook, meta, astronomer, gptq, pretrained, quantized, finetuned, autotrain_compatible, endpoints_compatible
數據集	wikitext

GPTQ量化方法

本模型使用AutoGPTQ庫進行量化，遵循 GPTQ論文中提到的最佳實踐。
量化過程使用指定數據集（目前為wikitext）的隨機樣本進行校準和對齊，以最小化精度損失。

分支	位數	組大小	激活順序	阻尼百分比	GPTQ數據集	序列長度	VRAM大小	ExLlama	描述
main	4	128	是	0.1	wikitext	8192	5.74 GB	是	4位量化，有激活順序，組大小為128g。在精度損失較小的情況下，模型體積最小
更多變體待發布	待定	待定	待定	待定	待定	待定	待定	待定	未來可能會上傳使用不同參數（如128g組大小等）的GPTQ 4位模型的其他變體

服務注意事項

⚠️ 重要提示

對於vLLM，加載此模型時，確保所有請求都包含 "stop_token_ids":[128001, 128009]，以暫時解決不停生成的問題。vLLM目前不支持 generation_config.json，vLLM團隊正在此處修復此問題。

對於oobabooga/text-generation-webui，通過AutoGPTQ加載模型時，啟用 no_inject_fused_attention，這是AutoGPTQ庫的一個bug。在 Parameters -> Generation -> Skip special tokens 中關閉此選項（取消選擇），並在 Parameters -> Generation -> Custom stopping strings 字段中添加 "<|end_of_text|>","<|eot_id|>"。