Meta-Llama-3-8B-Instruct-FP8-KVオープンソースモデル - vLLM推論をサポート、量子化パラメータでアプリケーションをサポート

Meta Llama 3 8B Instruct FP8 KV

RedHatAIによって開発

Meta-Llama-3-8B-InstructモデルはFP8重みと活性化値のテンソルごとの量子化を施しており、vLLM >= 0.5.0での推論に適しています。このモデルチェックポイントにはFP8量子化KVキャッシュのテンソルごとのスケーリングパラメータも含まれています。

大規模言語モデル

Transformers

#FP8量子化推論 #KVキャッシュ最適化 #vLLM互換

ダウンロード数 3,153

リリース時間 : 5/20/2024

モデル概要

これはFP8量子化されたMeta-Llama-3-8B-Instructモデルで、FP8 KVキャッシュをサポートし、効率的な推論に適しています。

モデル特徴

FP8量子化

モデル重みと活性化値がFP8テンソルごとに量子化されており、メモリ使用量を削減しながら精度を維持

FP8 KVキャッシュサポート

FP8量子化KVキャッシュのテンソルごとのスケーリングパラメータを含み、vLLM経由で呼び出し可能

効率的な推論

vLLM >= 0.5.0向けに最適化されており、効率的な推論性能を提供

モデル能力

テキスト生成

対話システム

指示追従

使用事例

対話システム

チャットボット

効率的なチャットボットアプリケーションの構築

コンテンツ生成

テキスト作成

様々なテキスト作成タスクの補助

🚀 Meta-Llama-3-8B-Instruct-FP8-KV

Meta-Llama-3-8B-Instruct-FP8-KVは、FP8の重みと活性化関数に量子化されたモデルです。vLLM >= 0.5.0を使用して推論を行うことができます。このモデルは、FP8量子化されたKVキャッシュのパーテンソルスケールを含んでおり、vLLMで--kv-cache-dtype fp8引数を使用してアクセスできます。

🚀 クイックスタート

from vllm import LLM
model = LLM(model="neuralmagic/Meta-Llama-3-8B-Instruct-FP8-KV", kv_cache_dtype="fp8")
result = model.generate("Hello, my name is")

✨ 主な機能

パーテンソル量子化を使用してFP8の重みと活性化関数に量子化されています。
vLLM >= 0.5.0を使用した推論に対応しています。
FP8量子化されたKVキャッシュのパーテンソルスケールを含んでいます。

📦 インストール

このモデルは、vLLMを使用して推論を行うことができます。vLLMのインストール方法については、vLLMの公式リポジトリを参照してください。

💻 使用例

基本的な使用法

from vllm import LLM
model = LLM(model="neuralmagic/Meta-Llama-3-8B-Instruct-FP8-KV", kv_cache_dtype="fp8")
result = model.generate("Hello, my name is")

高度な使用法

from datasets import load_dataset
from transformers import AutoTokenizer

from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfig

pretrained_model_dir = "meta-llama/Meta-Llama-3-8B-Instruct"
quantized_model_dir = "Meta-Llama-3-8B-Instruct-FP8-KV"

tokenizer = AutoTokenizer.from_pretrained(pretrained_model_dir, use_fast=True)
tokenizer.pad_token = tokenizer.eos_token

ds = load_dataset("mgoin/ultrachat_2k", split="train_sft")
examples = [tokenizer.apply_chat_template(batch["messages"], tokenize=False) for batch in ds]
examples = tokenizer(examples, padding=True, truncation=True, return_tensors="pt").to("cuda")

quantize_config = BaseQuantizeConfig(
    quant_method="fp8",
    activation_scheme="static",
    ignore_patterns=["re:.*lm_head"],
    kv_cache_quant_targets=("k_proj", "v_proj"),
)

model = AutoFP8ForCausalLM.from_pretrained(pretrained_model_dir, quantize_config)
model.quantize(examples)
model.save_quantized(quantized_model_dir)