Meta-Llama-3.1-405B-Instruct-FP8-dynamic开源模型 - 免费部署支持多语言，优化助手机器人应用

首页

Meta Llama 3.1 405B Instruct FP8 Dynamic

由 RedHatAI 开发

Meta-Llama-3.1-405B-Instruct的FP8量化版本，适用于多语言的商业和研究用途，特别优化用于助手机器人场景。

大型语言模型

Transformers

支持多种语言#FP8量化推理 #多语言助手 #大模型优化

下载量 97

发布时间 : 7/23/2024

模型简介

该模型是Meta-Llama-3.1-405B-Instruct的量化版本，通过将权重和激活量化为FP8数据类型，减少了约50%的磁盘大小和GPU内存需求。适用于类似助手的聊天场景。

模型特点

FP8量化

权重和激活量化为FP8数据类型，减少了约50%的磁盘大小和GPU内存需求。

多语言支持

支持多种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

高恢复率

在多个基准测试中实现了接近原始模型的性能，如Arena-Hard评估中实现了99.0%的恢复率。

模型能力

文本生成

多语言对话

数学推理

多项选择任务

使用案例

聊天机器人

多语言助手

作为多语言助手机器人，支持多种语言的对话和任务完成。

在Arena-Hard评估中实现了66.7的得分。

研究工具

语言模型研究

用于研究量化对大型语言模型性能的影响。

在OpenLLM v1和v2评估中实现了接近原始模型的性能。

🚀 Meta-Llama-3.1-405B-Instruct-FP8-dynamic

Meta-Llama-3.1-405B-Instruct的量化版本，可高效部署，在多任务评估中表现出色，大幅降低磁盘和GPU内存需求。

🚀 快速开始

本模型是 Meta-Llama-3.1-405B-Instruct 的量化版本，可用于商业和研究用途，支持多种语言。以下将介绍其基本信息、优化方式、部署方法、创建过程以及评估结果。

✨ 主要特性

多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等多种语言。
模型优化：对权重和激活进行FP8量化，减少磁盘大小和GPU内存需求约50%，可在单节点8xH100 GPU上加载和评估。
高效部署：可使用 vLLM 后端高效部署，也支持OpenAI兼容服务。
评估出色：在Arena-Hard、OpenLLM v1、OpenLLM v2、HumanEval和HumanEval+等基准测试中表现良好，恢复率高。

📦 安装指南

文档未提及具体安装步骤，暂不提供。

💻 使用示例

基础用法

本模型可以使用 vLLM 后端进行高效部署，示例代码如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic"
number_gpus = 8

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=4096)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM还支持OpenAI兼容服务，更多详细信息请参阅文档。

📚 详细文档

模型概述

模型架构：Meta-Llama-3.1
- 输入：文本
- 输出：文本
模型优化：
- 权重量化：FP8
- 激活量化：FP8
预期用例：适用于多种语言的商业和研究用途，与 Meta-Llama-3.1-405B-Instruct 类似，用于类似助手的聊天场景。
不适用范围：任何违反适用法律法规（包括贸易合规法律）的使用方式，以及使用非英语语言。
发布日期：2024年8月22日
版本：1.1
许可证：llama3.1
模型开发者：Neural Magic

该模型在多项任务上进行了评估，以评估其与未量化模型相比的质量，包括多项选择、数学推理和开放式文本生成。Meta-Llama-3.1-405B-Instruct-FP8-dynamic在Arena-Hard评估中达到99.0%的恢复率，在OpenLLM v1（使用Meta的提示时）达到100.0%，在OpenLLM v2中达到99.9%，在HumanEval pass@1中达到100.2%，在HumanEval+ pass@1中达到101.1%。

模型优化

该模型通过将 Meta-Llama-3.1-405B-Instruct 的权重和激活量化为FP8数据类型获得，可使用从源代码构建的vLLM进行推理。这种优化将每个参数的位数从16位减少到8位，将磁盘大小和GPU内存需求降低了约50%。特别是，现在可以使用单节点8xH100 GPU加载和评估该模型，而不是多个节点。

仅对Transformer块内线性算子的权重和激活进行量化。应用对称的逐通道量化，其中每个输出维度的线性缩放映射量化权重和激活的FP8表示。激活也在每个令牌的动态基础上进行量化。使用 LLM Compressor 进行量化。

部署

使用vLLM

此模型可以使用 vLLM 后端进行高效部署，如上述代码示例所示。

创建

该模型通过应用带有来自UltraChat的校准样本的LLM Compressor 创建，代码片段如下：

import torch

from transformers import AutoTokenizer

from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot
from llmcompressor.transformers.compression.helpers import (  # noqa
    calculate_offload_device_map,
    custom_offload_device_map,
)

recipe = """
quant_stage:
    quant_modifiers:
        QuantizationModifier:
            ignore: ["lm_head"]
            config_groups:
                group_0:
                    weights:
                        num_bits: 8
                        type: float
                        strategy: channel
                        dynamic: false
                        symmetric: true
                    input_activations:
                        num_bits: 8
                        type: float
                        strategy: token
                        dynamic: true
                        symmetric: true
                    targets: ["Linear"]
"""

model_stub = "meta-llama/Meta-Llama-3.1-405B-Instruct"
model_name = model_stub.split("/")[-1]

device_map = calculate_offload_device_map(
    model_stub, reserve_for_hessians=False, num_gpus=8, torch_dtype="auto"
)

model = SparseAutoModelForCausalLM.from_pretrained(
    model_stub, torch_dtype="auto", device_map=device_map
)

output_dir = f"./{model_name}-FP8-dynamic"

oneshot(
    model=model,
    recipe=recipe,
    output_dir=output_dir,
    save_compressed=True,
    tokenizer=AutoTokenizer.from_pretrained(model_stub),
)

评估

该模型在知名的Arena-Hard、OpenLLM v1、OpenLLM v2、HumanEval和HumanEval+基准测试中进行了评估。在所有情况下，模型输出均使用 vLLM 引擎生成。

Arena-Hard评估使用 Arena-Hard-Auto 仓库进行。模型为Arena-Hard中的每个提示生成一个答案，每个答案由GPT-4评判两次。以下报告了每次评判的得分和平均值。

OpenLLM v1和v2评估使用Neural Magic的 lm-evaluation-harness 分支（llama_3.1_instruct）进行。此版本的lm-evaluation-harness包括与 Meta-Llama-3.1-Instruct-evals 提示风格匹配的MMLU、ARC-Challenge和GSM-8K版本，以及对OpenLLM v2任务的一些修复。

HumanEval和HumanEval+评估使用Neural Magic的 EvalPlus 仓库的分支进行。

详细的模型输出可作为HuggingFace数据集获取，包括 Arena-Hard、OpenLLM v2 和 HumanEval。

准确性

基准测试	Meta-Llama-3.1-405B-Instruct	Meta-Llama-3.1-405B-Instruct-FP8-dynamic (本模型)	恢复率
Arena Hard	67.4 (67.3 / 67.5)	66.7 (66.7 / 66.6)	99.0%
OpenLLM v1
MMLU (5-shot)	87.4	87.5	100.0%
MMLU-cot (0-shot)	88.1	88.1	100.0%
ARC Challenge (0-shot)	95.0	95.0	100.0%
GSM-8K-cot (8-shot, strict-match)	96.0	95.8	99.8%
Hellaswag (10-shot)	88.5	88.5	99.9%
Winogrande (5-shot)	87.2	88.0	100.9%
TruthfulQA (0-shot, mc2)	65.3	65.3	99.9%
平均值	86.8	86.9	100.0%
OpenLLM v2
MMLU-Pro (5-shot)	59.7	59.4	99.4%
IFEval (0-shot)	87.7	86.8	99.0%
BBH (3-shot)	67.0	67.1	100.1%
Math-	v	-5 (4-shot)	39.0
GPQA (0-shot)	19.5	19.0	97.4%
MuSR (0-shot)	19.5	20.8	106.9%
平均值	48.7	48.7	99.9%
编码
HumanEval pass@1	86.8	87.0	100.2%
HumanEval+ pass@1	80.1	81.0	101.1%

复现

结果通过以下命令获得：

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,max_gen_toks=10,tensor_parallel_size=8 \
  --tasks mmlu_llama_3.1_instruct \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --num_fewshot 5 \
  --batch_size auto

MMLU-cot

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=8 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4096,tensor_parallel_size=8,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

HumanEval和HumanEval+

生成

python3 codegen/generate.py \
  --model neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval \
  --tp 8

清理

python3 evalplus/sanitize.py \
  humaneval/neuralmagic--Meta-Llama-3.1-405B-Instruct-FP8-dynamic_vllm_temp_0.2

评估

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/neuralmagic--Meta-Llama-3.1-405B-Instruct-FP8-dynamic_vllm_temp_0.2-sanitized

📄 许可证

本模型使用 llama3.1 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库