🚀 Llama-3-8B-Instruct-GPTQ-4-Bit
本项目提供了 meta-llama/Meta-Llama-3-8B-Instruct 的4位量化GPTQ模型文件。该模型能以不到6GB的VRAM加载,相比原16.07GB的模型大幅减少了内存需求,并且可以使用如Nvidia T4、Nvidia K80、RTX 4070等较便宜的Nvidia GPU实现快速服务。
🚀 快速开始
使用vLLM服务此GPTQ模型
已使用Nvidia T4(16GB VRAM)通过vLLM测试服务此模型。使用以下命令进行测试:
python -m vllm.entrypoints.openai.api_server --model astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit --max-model-len 8192 --dtype float16
对于不停生成令牌的问题,请确保向vLLM端点发送包含 stop_token_ids":[128001, 128009]
的请求。示例如下:
{
"model": "astronomer-io/Llama-3-8B-Instruct-GPTQ-4-Bit",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Who created Llama 3?"}
],
"max_tokens": 2000,
"stop_token_ids":[128001,128009]
}
提示模板
<|begin_of_text|><|start_header_id|>user<|end_header_id|>
{{prompt}}<|eot_id|>
<|start_header_id|>assistant<|end_header_id|>
✨ 主要特性
- 该模型由 Astronomer 慷慨创建并开源。Astronomer是 Apache Airflow 领域的领先公司,Apache Airflow是数据编排和MLOps领域最受信任的开源框架。
- 4位GPTQ量化模型在原始
bfloat16
模型的基础上,质量有轻微下降,但可以在更小的GPU上运行,同时显著提高延迟和吞吐量。
📦 安装指南
暂未提供相关安装步骤。
💻 使用示例
暂未提供相关代码示例。
📚 详细文档
模型信息
属性 |
详情 |
基础模型 |
meta-llama/Meta-Llama-3-8B-Instruct |
推理 |
false |
模型创建者 |
astronomer-io |
模型名称 |
Meta-Llama-3-8B-Instruct |
模型类型 |
llama |
任务类型 |
文本生成 |
提示模板 |
"{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '< |
量化者 |
davidxmle |
许可证 |
other |
许可证名称 |
llama-3-community-license |
许可证链接 |
https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct/blob/main/LICENSE |
标签 |
llama, llama-3, facebook, meta, astronomer, gptq, pretrained, quantized, finetuned, autotrain_compatible, endpoints_compatible |
数据集 |
wikitext |
GPTQ量化方法
- 本模型使用AutoGPTQ库进行量化,遵循 GPTQ论文 中提到的最佳实践。
- 量化过程使用指定数据集(目前为wikitext)的随机样本进行校准和对齐,以最小化精度损失。
分支 |
位数 |
组大小 |
激活顺序 |
阻尼百分比 |
GPTQ数据集 |
序列长度 |
VRAM大小 |
ExLlama |
描述 |
main |
4 |
128 |
是 |
0.1 |
wikitext |
8192 |
5.74 GB |
是 |
4位量化,有激活顺序,组大小为128g。在精度损失较小的情况下,模型体积最小 |
更多变体待发布 |
待定 |
待定 |
待定 |
待定 |
待定 |
待定 |
待定 |
待定 |
未来可能会上传使用不同参数(如128g组大小等)的GPTQ 4位模型的其他变体 |
服务注意事项
⚠️ 重要提示
- 对于vLLM,加载此模型时,确保所有请求都包含
"stop_token_ids":[128001, 128009]
,以暂时解决不停生成的问题。vLLM目前不支持 generation_config.json
,vLLM团队正在 此处 修复此问题。
- 对于oobabooga/text-generation-webui,通过AutoGPTQ加载模型时,启用
no_inject_fused_attention
,这是AutoGPTQ库的一个bug。在 Parameters
-> Generation
-> Skip special tokens
中关闭此选项(取消选择),并在 Parameters
-> Generation
-> Custom stopping strings
字段中添加 "<|end_of_text|>","<|eot_id|>"
。
贡献者
🔧 技术细节
暂未提供相关技术细节。
📄 许可证
本模型使用 llama-3-community-license 许可证。