Meta-Llama-3-8B-Instruct-FP8-KV開源模型 - 支持vLLM推理，量化參數助力應用

Home

Meta Llama 3 8B Instruct FP8 KV

Developed by RedHatAI

Meta-Llama-3-8B-Instruct模型經過FP8權重和激活值的逐張量量化，適用於vLLM >= 0.5.0進行推理。該模型檢查點還包含FP8量化KV緩存的逐張量縮放參數。

大型語言模型

Transformers

#FP8量化推理 #KV緩存優化 #vLLM兼容

Downloads 3,153

Release Time : 5/20/2024

Model Overview

這是一個經過FP8量化的Meta-Llama-3-8B-Instruct模型，支持FP8 KV緩存，適用於高效推理。

Model Features

FP8量化

模型權重和激活值經過FP8逐張量量化，減少內存佔用同時保持精度

FP8 KV緩存支持

包含FP8量化KV緩存的逐張量縮放參數，可通過vLLM調用

高效推理

專為vLLM >= 0.5.0優化，提供高效的推理性能

Model Capabilities

文本生成

對話系統

指令跟隨

Use Cases

對話系統

聊天機器人

構建高效的聊天機器人應用

內容生成

文本創作

輔助進行各種文本創作任務

🚀 Meta-Llama-3-8B-Instruct-FP8-KV

本項目的Meta-Llama-3-8B-Instruct-FP8-KV模型，將Meta-Llama-3-8B-Instruct模型量化為FP8權重和激活值，可藉助vLLM進行推理。同時，該模型還包含FP8量化的KV緩存，能有效提升推理效率。

🚀 快速開始

使用以下代碼即可加載並運行模型：

from vllm import LLM
model = LLM(model="neuralmagic/Meta-Llama-3-8B-Instruct-FP8-KV", kv_cache_dtype="fp8")
result = model.generate("Hello, my name is")

✨ 主要特性

FP8量化：採用逐張量量化方式，將模型的權重和激活值量化為FP8格式，減少內存佔用，提升推理速度。
KV緩存支持：模型檢查點包含FP8量化的KV緩存的逐張量縮放，可通過vLLM中的 --kv-cache-dtype fp8 參數訪問。

📦 安裝指南

文檔中未提及具體安裝步驟，若要使用該模型，需確保安裝了vLLM >= 0.5.0版本。

💻 使用示例

基礎用法

from vllm import LLM
model = LLM(model="neuralmagic/Meta-Llama-3-8B-Instruct-FP8-KV", kv_cache_dtype="fp8")
result = model.generate("Hello, my name is")

高級用法

以下代碼展示瞭如何使用 AutoFP8 和校準樣本對模型進行量化：

from datasets import load_dataset
from transformers import AutoTokenizer

from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfig

pretrained_model_dir = "meta-llama/Meta-Llama-3-8B-Instruct"
quantized_model_dir = "Meta-Llama-3-8B-Instruct-FP8-KV"

tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token

ds = load_dataset("mgoin/ultrachat_2k", split="train_sft")
examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")

quantize_config = BaseQuantizeConfig(
    quant_method="fp8",
    activation_scheme="static",
    ignore_patterns=["re:.*lm_head"],
    kv_cache_quant_targets=("k_proj", "v_proj"),
)

model = AutoFP8ForCausalLM.from_pretrained(pretrained_model_dir, quantize_config)
model.quantize(examples)
model.save_quantized(quantized_model_dir)