Meta-Llama-3-8B-Instruct-FP8-KV开源模型 - 支持vLLM推理，量化参数助力应用

首页

Meta Llama 3 8B Instruct FP8 KV

由 RedHatAI 开发

Meta-Llama-3-8B-Instruct模型经过FP8权重和激活值的逐张量量化，适用于vLLM >= 0.5.0进行推理。该模型检查点还包含FP8量化KV缓存的逐张量缩放参数。

大型语言模型

Transformers

#FP8量化推理 #KV缓存优化 #vLLM兼容

下载量 3,153

发布时间 : 5/20/2024

模型简介

这是一个经过FP8量化的Meta-Llama-3-8B-Instruct模型，支持FP8 KV缓存，适用于高效推理。

模型特点

FP8量化

模型权重和激活值经过FP8逐张量量化，减少内存占用同时保持精度

FP8 KV缓存支持

包含FP8量化KV缓存的逐张量缩放参数，可通过vLLM调用

高效推理

专为vLLM >= 0.5.0优化，提供高效的推理性能

模型能力

文本生成

对话系统

指令跟随

使用案例

对话系统

聊天机器人

构建高效的聊天机器人应用

内容生成

文本创作

辅助进行各种文本创作任务

🚀 Meta-Llama-3-8B-Instruct-FP8-KV

本项目的Meta-Llama-3-8B-Instruct-FP8-KV模型，将Meta-Llama-3-8B-Instruct模型量化为FP8权重和激活值，可借助vLLM进行推理。同时，该模型还包含FP8量化的KV缓存，能有效提升推理效率。

🚀 快速开始

使用以下代码即可加载并运行模型：

from vllm import LLM
model = LLM(model="neuralmagic/Meta-Llama-3-8B-Instruct-FP8-KV", kv_cache_dtype="fp8")
result = model.generate("Hello, my name is")

✨ 主要特性

FP8量化：采用逐张量量化方式，将模型的权重和激活值量化为FP8格式，减少内存占用，提升推理速度。
KV缓存支持：模型检查点包含FP8量化的KV缓存的逐张量缩放，可通过vLLM中的 --kv-cache-dtype fp8 参数访问。

📦 安装指南

文档中未提及具体安装步骤，若要使用该模型，需确保安装了vLLM >= 0.5.0版本。

💻 使用示例

基础用法

from vllm import LLM
model = LLM(model="neuralmagic/Meta-Llama-3-8B-Instruct-FP8-KV", kv_cache_dtype="fp8")
result = model.generate("Hello, my name is")

高级用法

以下代码展示了如何使用 AutoFP8 和校准样本对模型进行量化：

from datasets import load_dataset
from transformers import AutoTokenizer

from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfig

pretrained_model_dir = "meta-llama/Meta-Llama-3-8B-Instruct"
quantized_model_dir = "Meta-Llama-3-8B-Instruct-FP8-KV"

tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token

ds = load_dataset("mgoin/ultrachat_2k", split="train_sft")
examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")

quantize_config = BaseQuantizeConfig(
    quant_method="fp8",
    activation_scheme="static",
    ignore_patterns=["re:.*lm_head"],
    kv_cache_quant_targets=("k_proj", "v_proj"),
)

model = AutoFP8ForCausalLM.from_pretrained(pretrained_model_dir, quantize_config)
model.quantize(examples)
model.save_quantized(quantized_model_dir)