Meta-Llama-3.1-405B-Instruct-FP8-dynamic開源模型 - 免費部署支持多語言，優化助手機器人應用

首頁

Meta Llama 3.1 405B Instruct FP8 Dynamic

由RedHatAI開發

Meta-Llama-3.1-405B-Instruct的FP8量化版本，適用於多語言的商業和研究用途，特別優化用於助手機器人場景。

大型語言模型

Transformers

支持多種語言#FP8量化推理 #多語言助手 #大模型優化

下載量 97

發布時間 : 7/23/2024

模型概述

該模型是Meta-Llama-3.1-405B-Instruct的量化版本，通過將權重和激活量化為FP8數據類型，減少了約50%的磁盤大小和GPU內存需求。適用於類似助手的聊天場景。

模型特點

FP8量化

權重和激活量化為FP8數據類型，減少了約50%的磁盤大小和GPU內存需求。

多語言支持

支持多種語言，包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。

高恢復率

在多個基準測試中實現了接近原始模型的性能，如Arena-Hard評估中實現了99.0%的恢復率。

模型能力

文本生成

多語言對話

數學推理

多項選擇任務

使用案例

聊天機器人

多語言助手

作為多語言助手機器人，支持多種語言的對話和任務完成。

在Arena-Hard評估中實現了66.7的得分。

研究工具

語言模型研究

用於研究量化對大型語言模型性能的影響。

在OpenLLM v1和v2評估中實現了接近原始模型的性能。

🚀 Meta-Llama-3.1-405B-Instruct-FP8-dynamic

Meta-Llama-3.1-405B-Instruct的量化版本，可高效部署，在多任務評估中表現出色，大幅降低磁盤和GPU內存需求。

🚀 快速開始

本模型是 Meta-Llama-3.1-405B-Instruct 的量化版本，可用於商業和研究用途，支持多種語言。以下將介紹其基本信息、優化方式、部署方法、創建過程以及評估結果。

✨ 主要特性

多語言支持：支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等多種語言。
模型優化：對權重和激活進行FP8量化，減少磁盤大小和GPU內存需求約50%，可在單節點8xH100 GPU上加載和評估。
高效部署：可使用 vLLM 後端高效部署，也支持OpenAI兼容服務。
評估出色：在Arena-Hard、OpenLLM v1、OpenLLM v2、HumanEval和HumanEval+等基準測試中表現良好，恢復率高。

📦 安裝指南

文檔未提及具體安裝步驟，暫不提供。

💻 使用示例

基礎用法

本模型可以使用 vLLM 後端進行高效部署，示例代碼如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic"
number_gpus = 8

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=4096)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM還支持OpenAI兼容服務，更多詳細信息請參閱文檔。

📚 詳細文檔

模型概述

模型架構：Meta-Llama-3.1
- 輸入：文本
- 輸出：文本
模型優化：
- 權重量化：FP8
- 激活量化：FP8
預期用例：適用於多種語言的商業和研究用途，與 Meta-Llama-3.1-405B-Instruct 類似，用於類似助手的聊天場景。
不適用範圍：任何違反適用法律法規（包括貿易合規法律）的使用方式，以及使用非英語語言。
發佈日期：2024年8月22日
版本：1.1
許可證：llama3.1
模型開發者：Neural Magic

該模型在多項任務上進行了評估，以評估其與未量化模型相比的質量，包括多項選擇、數學推理和開放式文本生成。Meta-Llama-3.1-405B-Instruct-FP8-dynamic在Arena-Hard評估中達到99.0%的恢復率，在OpenLLM v1（使用Meta的提示時）達到100.0%，在OpenLLM v2中達到99.9%，在HumanEval pass@1中達到100.2%，在HumanEval+ pass@1中達到101.1%。

模型優化

該模型通過將 Meta-Llama-3.1-405B-Instruct 的權重和激活量化為FP8數據類型獲得，可使用從源代碼構建的vLLM進行推理。這種優化將每個參數的位數從16位減少到8位，將磁盤大小和GPU內存需求降低了約50%。特別是，現在可以使用單節點8xH100 GPU加載和評估該模型，而不是多個節點。

僅對Transformer塊內線性算子的權重和激活進行量化。應用對稱的逐通道量化，其中每個輸出維度的線性縮放映射量化權重和激活的FP8表示。激活也在每個令牌的動態基礎上進行量化。使用 LLM Compressor 進行量化。

部署

使用vLLM

此模型可以使用 vLLM 後端進行高效部署，如上述代碼示例所示。

創建

該模型通過應用帶有來自UltraChat的校準樣本的LLM Compressor 創建，代碼片段如下：

import torch

from transformers import AutoTokenizer

from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot
from llmcompressor.transformers.compression.helpers import (  # noqa
    calculate_offload_device_map,
    custom_offload_device_map,
)

recipe = """
quant_stage:
    quant_modifiers:
        QuantizationModifier:
            ignore: ["lm_head"]
            config_groups:
                group_0:
                    weights:
                        num_bits: 8
                        type: float
                        strategy: channel
                        dynamic: false
                        symmetric: true
                    input_activations:
                        num_bits: 8
                        type: float
                        strategy: token
                        dynamic: true
                        symmetric: true
                    targets: ["Linear"]
"""

model_stub = "meta-llama/Meta-Llama-3.1-405B-Instruct"
model_name = model_stub.split("/")[-1]

device_map = calculate_offload_device_map(
    model_stub, reserve_for_hessians=False, num_gpus=8, torch_dtype="auto"
)

model = SparseAutoModelForCausalLM.from_pretrained(
    model_stub, torch_dtype="auto", device_map=device_map
)

output_dir = f"./{model_name}-FP8-dynamic"

oneshot(
    model=model,
    recipe=recipe,
    output_dir=output_dir,
    save_compressed=True,
    tokenizer=AutoTokenizer.from_pretrained(model_stub),
)

評估

該模型在知名的Arena-Hard、OpenLLM v1、OpenLLM v2、HumanEval和HumanEval+基準測試中進行了評估。在所有情況下，模型輸出均使用 vLLM 引擎生成。

Arena-Hard評估使用 Arena-Hard-Auto 倉庫進行。模型為Arena-Hard中的每個提示生成一個答案，每個答案由GPT-4評判兩次。以下報告了每次評判的得分和平均值。

OpenLLM v1和v2評估使用Neural Magic的 lm-evaluation-harness 分支（llama_3.1_instruct）進行。此版本的lm-evaluation-harness包括與 Meta-Llama-3.1-Instruct-evals 提示風格匹配的MMLU、ARC-Challenge和GSM-8K版本，以及對OpenLLM v2任務的一些修復。

HumanEval和HumanEval+評估使用Neural Magic的 EvalPlus 倉庫的分支進行。

詳細的模型輸出可作為HuggingFace數據集獲取，包括 Arena-Hard、OpenLLM v2 和 HumanEval。

準確性

基準測試	Meta-Llama-3.1-405B-Instruct	Meta-Llama-3.1-405B-Instruct-FP8-dynamic (本模型)	恢復率
Arena Hard	67.4 (67.3 / 67.5)	66.7 (66.7 / 66.6)	99.0%
OpenLLM v1
MMLU (5-shot)	87.4	87.5	100.0%
MMLU-cot (0-shot)	88.1	88.1	100.0%
ARC Challenge (0-shot)	95.0	95.0	100.0%
GSM-8K-cot (8-shot, strict-match)	96.0	95.8	99.8%
Hellaswag (10-shot)	88.5	88.5	99.9%
Winogrande (5-shot)	87.2	88.0	100.9%
TruthfulQA (0-shot, mc2)	65.3	65.3	99.9%
平均值	86.8	86.9	100.0%
OpenLLM v2
MMLU-Pro (5-shot)	59.7	59.4	99.4%
IFEval (0-shot)	87.7	86.8	99.0%
BBH (3-shot)	67.0	67.1	100.1%
Math-	v	-5 (4-shot)	39.0
GPQA (0-shot)	19.5	19.0	97.4%
MuSR (0-shot)	19.5	20.8	106.9%
平均值	48.7	48.7	99.9%
編碼
HumanEval pass@1	86.8	87.0	100.2%
HumanEval+ pass@1	80.1	81.0	101.1%

復現

結果通過以下命令獲得：

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,max_gen_toks=10,tensor_parallel_size=8 \
  --tasks mmlu_llama_3.1_instruct \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --num_fewshot 5 \
  --batch_size auto

MMLU-cot

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=8 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4096,tensor_parallel_size=8,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

HumanEval和HumanEval+

生成

python3 codegen/generate.py \
  --model neuralmagic/Meta-Llama-3.1-405B-Instruct-FP8-dynamic \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval \
  --tp 8

清理

python3 evalplus/sanitize.py \
  humaneval/neuralmagic--Meta-Llama-3.1-405B-Instruct-FP8-dynamic_vllm_temp_0.2

評估

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/neuralmagic--Meta-Llama-3.1-405B-Instruct-FP8-dynamic_vllm_temp_0.2-sanitized

📄 許可證

本模型使用 llama3.1 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫