Llama-3.3-70B-Instruct-FP8-dynamic開源大語言模型 - 多語言支持商業研究，省內存提效率

Home

Llama 3.3 70B Instruct FP8 Dynamic

Developed by RedHatAI

Llama-3.3-70B-Instruct-FP8-dynamic 是經過優化的大語言模型，通過將激活和權重量化為 FP8 數據類型，減少了 GPU 內存需求並提高了計算吞吐量，支持多語言的商業和研究用途。

大型語言模型

Transformers

Supports Multiple Languages#FP8量化優化 #多語言助手 #高吞吐推理

Downloads 6,060

Release Time : 12/11/2024

Model Overview

指令微調的文本模型適用於類似助手的聊天場景，預訓練模型可適應各種自然語言生成任務，並且 Llama 3.3 模型還支持利用其模型的輸出來改進其他模型，包括合成數據生成和蒸餾。

Model Features

FP8 量化優化

通過將激活和權重量化為 FP8 數據類型，減少了 GPU 內存需求（約 50%），並提高了矩陣乘法的計算吞吐量（約 2 倍），同時也將磁盤大小需求減少了約 50%。

多語言支持

支持英語、法語、意大利語、葡萄牙語、印地語、西班牙語、泰語和德語等多種語言，適用於不同語言環境的商業和研究用途。

高效部署

支持使用 vLLM 後端進行高效部署，併兼容 OpenAI 兼容的服務。

Model Capabilities

文本生成

多語言支持

聊天助手

自然語言處理

指令微調

Use Cases

商業和研究

多語言聊天助手

適用於不同語言環境的商業和研究用途，提供類似助手的聊天場景支持。

自然語言生成

預訓練模型可適應各種自然語言生成任務。

模型改進

合成數據生成

利用模型的輸出來改進其他模型，包括合成數據生成和蒸餾。

🚀 Llama-3.3-70B-Instruct-FP8-dynamic

🚀 快速開始

本模型可以使用 vLLM 後端進行高效部署，示例代碼如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic"
number_gpus = 1

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持與 OpenAI 兼容的服務，更多詳細信息請參閱文檔。

✨ 主要特性

多語言支持：支持英語、法語、意大利語、葡萄牙語、印地語、西班牙語、泰語和德語等多種語言，適用於不同語言環境的商業和研究用途。
模型優化：通過將 Llama-3.3-70B-Instruct 的激活和權重量化為 FP8 數據類型，減少了 GPU 內存需求（約 50%），並提高了矩陣乘法的計算吞吐量（約 2 倍），同時也將磁盤大小需求減少了約 50%。
廣泛用途：指令微調的文本模型適用於類似助手的聊天場景，預訓練模型可適應各種自然語言生成任務，並且 Llama 3.3 模型還支持利用其模型的輸出來改進其他模型，包括合成數據生成和蒸餾。

📦 安裝指南

在 Red Hat AI Inference Server 上部署

podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
 --ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768  \
--enforce-eager --model RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic

更多詳細信息請參閱 Red Hat AI Inference Server 文檔。

在 Red Hat Enterprise Linux AI 上部署

# 通過 docker 從 Red Hat Registry 下載模型
# 注意：除非指定 --model-dir，否則模型將下載到 ~/.cache/instructlab/models
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-3-3-70b-instruct-fp8-dynamic:1.5

# 通過 ilab 提供模型服務
ilab model serve --model-path ~/.cache/instructlab/models/llama-3-3-70b-instruct-fp8-dynamic
  
# 與模型進行聊天
ilab model chat --model ~/.cache/instructlab/models/llama-3-3-70b-instruct-fp8-dynamic

更多詳細信息請參閱 Red Hat Enterprise Linux AI 文檔。

在 Red Hat Openshift AI 上部署

# 使用 ServingRuntime 設置 vllm 服務器
# 保存為：vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
 name: vllm-cuda-runtime # 可選更改：設置唯一名稱
 annotations:
   openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
   opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
 labels:
   opendatahub.io/dashboard: 'true'
spec:
 annotations:
   prometheus.io/port: '8080'
   prometheus.io/path: '/metrics'
 multiModel: false
 supportedModelFormats:
   - autoSelect: true
     name: vLLM
 containers:
   - name: kserve-container
     image: quay.io/modh/vllm:rhoai-2.20-cuda # 根據需要更改。如果是 AMD：quay.io/modh/vllm:rhoai-2.20-rocm
     command:
       - python
       - -m
       - vllm.entrypoints.openai.api_server
     args:
       - "--port=8080"
       - "--model=/mnt/models"
       - "--served-model-name={{.Name}}"
     env:
       - name: HF_HOME
         value: /tmp/hf_home
     ports:
       - containerPort: 8080
         protocol: TCP

# 將模型附加到 vllm 服務器。這是一個 NVIDIA 模板
# 保存為：inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    openshift.io/display-name: llama-3-3-70b-instruct-fp8-dynamic # 可選更改
    serving.kserve.io/deploymentMode: RawDeployment
  name: llama-3-3-70b-instruct-fp8-dynamic        # 指定模型名稱。此值將用於在有效負載中調用模型
  labels:
    opendatahub.io/dashboard: 'true'
spec:
  predictor:
    maxReplicas: 1
    minReplicas: 1
    model:
      modelFormat:
        name: vLLM
      name: ''
      resources:
        limits:
          cpu: '2'			# 這是特定於模型的
          memory: 8Gi		# 這是特定於模型的
          nvidia.com/gpu: '1'	# 這是特定於加速器的
        requests:			# 此塊同理
          cpu: '1'
          memory: 4Gi
          nvidia.com/gpu: '1'
      runtime: vllm-cuda-runtime	# 必須與上面的 ServingRuntime 名稱匹配
      storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-3-3-70b-instruct-fp8-dynamic:1.5
    tolerations:
    - effect: NoSchedule
      key: nvidia.com/gpu
      operator: Exists

# 首先確保位於要部署模型的項目中
# oc project <項目名稱>

# 應用兩個資源以運行模型

# 應用 ServingRuntime
oc apply -f vllm-servingruntime.yaml

# 應用 InferenceService
oc apply -f qwen-inferenceservice.yaml

# 替換下面的 <推理服務名稱> 和 <集群入口域名>：
# - 如果不確定，請運行 `oc get inferenceservice` 查找您的 URL。

# 使用 curl 調用服務器：
curl https://<推理服務名稱>-predictor-default.<域名>/v1/chat/completions
        -H "Content-Type: application/json" \
        -d '{
    "model": "llama-3-3-70b-instruct-fp8-dynamic",
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "max_tokens": 1,
    "messages": [
        {
            "role": "user",
            "content": "How can a bee fly when its wings are so small?"
        }
    ]
}'

更多詳細信息請參閱 Red Hat Openshift AI 文檔。

📚 詳細文檔

模型概述

模型架構：Meta-Llama-3.1
- 輸入：文本
- 輸出：文本
模型優化：
- 權重量化：FP8
- 激活量化：FP8
預期用例：適用於多種語言的商業和研究用途。指令微調的文本模型適用於類似助手的聊天場景，預訓練模型可適應各種自然語言生成任務。Llama 3.3 模型還支持利用其模型的輸出來改進其他模型，包括合成數據生成和蒸餾，Llama 3.3 社區許可證允許這些用例。
適用範圍外：禁止以任何違反適用法律法規（包括貿易合規法律）的方式使用，禁止以可接受使用政策和 Llama 3.3 社區許可證禁止的任何其他方式使用，禁止在英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語以外的語言中使用。
發佈日期：2024 年 11 月 12 日
版本：1.0
許可證：llama3.3
模型開發者：RedHat (Neural Magic)

模型優化

本模型是通過將 Llama-3.3-70B-Instruct 的激活和權重量化為 FP8 數據類型得到的。這種優化將表示權重和激活的位數從 16 位減少到 8 位，減少了 GPU 內存需求（約 50%），並提高了矩陣乘法的計算吞吐量（約 2 倍），同時也將磁盤大小需求減少了約 50%。

僅對 Transformer 塊內線性算子的權重和激活進行量化。權重採用對稱靜態每通道方案進行量化，而激活採用對稱動態每個令牌方案進行量化。量化使用 llm-compressor 庫。

模型創建

本模型使用 llm-compressor 創建，代碼如下：

from transformers import AutoModelForCausalLM, AutoTokenizer
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot

# 加載模型
model_stub = "meta-llama/Llama-3.3-70B-Instruct"
model_name = model_stub.split("/")[-1]

tokenizer = AutoTokenizer.from_pretrained(model_stub)

model = AutoModelForCausalLM.from_pretrained(
    model_stub,
    device_map="auto",
    torch_dtype="auto",
)

# 配置量化算法和方案
recipe = QuantizationModifier(
    targets="Linear",
    scheme="FP8_dynamic",
    ignore=["lm_head"],
)

# 應用量化
oneshot(
    model=model,
    recipe=recipe,
)

# 以壓縮張量格式保存到磁盤
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"模型和分詞器已保存到: {save_path}")

模型評估

本模型在著名的 OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+ 基準測試中進行了評估。在所有情況下，模型輸出均使用 vLLM 引擎生成。

OpenLLM v1 和 v2 評估使用 lm-evaluation-harness 進行，並在可用時使用 Meta-Llama-3.1-Instruct-evals 的提示風格。

HumanEval 和 HumanEval+ 評估使用 Neural Magic 對 EvalPlus 倉庫的分支進行。

評估詳情

點擊展開評估詳情

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_llama \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4096,tensor_parallel_size=1,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

MMLU 葡萄牙語

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_pt_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 西班牙語

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_es_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 意大利語

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_it_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 德語

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_de_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 法語

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_fr_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 印地語

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_hi_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 泰語

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_th_llama \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

HumanEval 和 HumanEval+ 生成

python3 codegen/generate.py \
  --model RedHatAI/Llama-3.3-70B-Instruct-FP8-dynamic \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval

清理

python3 evalplus/sanitize.py \
  humaneval/RedHatAI--Llama-3.3-70B-Instruct-FP8-dynamic_vllm_temp_0.2

評估

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/RedHatAI--Llama-3.3-70B-Instruct-FP8-dynamic_vllm_temp_0.2-sanitized

準確率

類別	基準測試	Llama-3.3-70B-Instruct	Llama-3.3-70B-Instruct-FP8-dynamic（本模型）	恢復率
OpenLLM v1	MMLU (5-shot)	81.60	81.31	99.6%
OpenLLM v1	MMLU (CoT, 0-shot)	86.58	86.34	99.7%
OpenLLM v1	ARC Challenge (0-shot)	49.23	51.96	105.6%
OpenLLM v1	GSM-8K (CoT, 8-shot, strict-match)	94.16	94.92	100.8%
OpenLLM v1	Hellaswag (10-shot)	86.49	86.43	99.9%
OpenLLM v1	Winogrande (5-shot)	84.77	84.53	99.7%
OpenLLM v1	TruthfulQA (0-shot, mc2)	62.75	63.21	100.7%
OpenLLM v1	平均	77.94	78.39	100.6%
OpenLLM v2	MMLU-Pro (5-shot)	51.89	51.50	99.3%
OpenLLM v2	IFEval (0-shot)	90.89	90.92	100.0%
OpenLLM v2	BBH (3-shot)	63.15	62.84	99.5%
OpenLLM v2	Math-lvl-5 (4-shot)	0.17	0.33	N/A
OpenLLM v2	GPQA (0-shot)	46.10	46.30	100.4%
OpenLLM v2	MuSR (0-shot)	44.35	43.96	99.1%
OpenLLM v2	平均	49.42	49.31	99.8%
編碼	HumanEval pass@1	83.20	83.70	100.6%
編碼	HumanEval+ pass@1	78.40	78.70	100.4%
多語言	葡萄牙語 MMLU (5-shot)	79.76	79.75	100.0%
多語言	西班牙語 MMLU (5-shot)	79.33	79.17	99.8%
多語言	意大利語 MMLU (5-shot)	79.15	78.84	99.6%
多語言	德語 MMLU (5-shot)	77.94	77.95	100.0%
多語言	法語 MMLU (5-shot)	75.69	75.45	99.7%
多語言	印地語 MMLU (5-shot)	73.81	73.71	99.9%
多語言	泰語 MMLU (5-shot)	71.98	71.77	99.7%

🔧 技術細節

量化方案

僅對 Transformer 塊內線性算子的權重和激活進行量化。權重採用對稱靜態每通道方案進行量化，而激活採用對稱動態每個令牌方案進行量化。使用 llm-compressor 庫進行量化。

評估基準

本模型在 OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+ 等多個基準測試中進行了評估。OpenLLM v1 和 v2 評估使用 lm-evaluation-harness 進行，並在可用時使用 Meta-Llama-3.1-Instruct-evals 的提示風格。HumanEval 和 HumanEval+ 評估使用 Neural Magic 對 EvalPlus 倉庫的分支進行。