Llama-3.3-70B-Instruct量化模型开源 - 多语言文本生成，适用于商研场景

首页

Llama 3.3 70B Instruct Quantized.w8a8

由 RedHatAI 开发

这是Llama-3.3-70B-Instruct的量化版本模型，支持多语言文本生成，可用于商业和研究场景，在多个基准测试中表现出色。

大型语言模型

Safetensors

支持多种语言#INT8量化优化 #多语言对话 #商业研究助手

下载量 19.02k

发布时间 : 1/20/2025

模型简介

Llama-3.3-70B-Instruct的量化版本，通过INT8量化优化了权重和激活，减少了GPU内存需求并提高了计算吞吐量，同时保持了原始模型的性能。

模型特点

多语言支持

支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语等多种语言的文本生成。

量化优化

对权重和激活进行INT8量化，减少GPU内存需求约50%，提高矩阵乘法计算吞吐量约2倍，同时磁盘大小需求减少约50%。

广泛评估

在多个基准测试中进行了评估，如OpenLLM v1、OpenLLM v2、HumanEval和HumanEval+，与未量化模型相比表现出色。

模型能力

多语言文本生成

商业和研究用途

聊天助手场景

使用案例

商业和研究

多语言聊天助手

用于构建支持多种语言的聊天助手，适用于全球化的商业和研究场景。

在多语言MMLU测试中表现优异，恢复率接近100%。

代码生成

用于生成和补全代码，支持多种编程语言。

在HumanEval和HumanEval+测试中pass@1得分超过80%。

🚀 Llama-3.3-70B-Instruct-quantized.w8a8

这是 Llama-3.3-70B-Instruct 的量化版本模型，支持多语言文本生成，可用于商业和研究场景，在多个基准测试中表现出色。

🚀 快速开始

本模型可以使用 vLLM 后端进行高效部署，示例代码如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 还支持与 OpenAI 兼容的服务，更多详细信息请参阅文档。

✨ 主要特性

多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语等多种语言。
量化优化：对权重和激活进行 INT8 量化，减少 GPU 内存需求（约 50%），提高矩阵乘法计算吞吐量（约 2 倍），同时磁盘大小需求也减少约 50%。
广泛评估：在多个基准测试中进行了评估，如 OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+，与未量化模型相比表现出色。

📦 安装指南

本部分未提供具体的安装命令，暂不展示安装指南相关内容。

💻 使用示例

基础用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高级用法

在不同平台上部署模型的示例代码：

在 Red Hat AI Inference Server 上部署

podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
 --ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768  \
--enforce-eager --model RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8

更多详细信息请参阅 Red Hat AI Inference Server 文档。

在 Red Hat Enterprise Linux AI 上部署

# 从 Red Hat Registry 通过 docker 下载模型
# 注意：除非指定 --model-dir，否则模型将下载到 ~/.cache/instructlab/models
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-3-3-70b-instruct-quantized-w8a8:1.5

# 通过 ilab 提供模型服务
ilab model serve --model-path ~/.cache/instructlab/models/llama-3-3-70b-instruct-quantized-w8a8
  
# 与模型进行对话
ilab model chat --model ~/.cache/instructlab/models/llama-3-3-70b-instruct-quantized-w8a8

更多详细信息请参阅 Red Hat Enterprise Linux AI 文档。

在 Red Hat Openshift AI 上部署

# 使用 ServingRuntime 设置 vllm 服务器
# 保存为: vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
 name: vllm-cuda-runtime # 可选修改: 设置唯一名称
 annotations:
   openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
   opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
 labels:
   opendatahub.io/dashboard: 'true'
spec:
 annotations:
   prometheus.io/port: '8080'
   prometheus.io/path: '/metrics'
 multiModel: false
 supportedModelFormats:
   - autoSelect: true
     name: vLLM
 containers:
   - name: kserve-container
     image: quay.io/modh/vllm:rhoai-2.20-cuda # 如有需要可更改。如果是 AMD: quay.io/modh/vllm:rhoai-2.20-rocm
     command:
       - python
       - -m
       - vllm.entrypoints.openai.api_server
     args:
       - "--port=8080"
       - "--model=/mnt/models"
       - "--served-model-name={{.Name}}"
     env:
       - name: HF_HOME
         value: /tmp/hf_home
     ports:
       - containerPort: 8080
         protocol: TCP

# 将模型附加到 vllm 服务器。这是一个 NVIDIA 模板
# 保存为: inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    openshift.io/display-name: llama-3-3-70b-instruct-quantized-w8a8 # 可选修改
    serving.kserve.io/deploymentMode: RawDeployment
  name: llama-3-3-70b-instruct-quantized-w8a8          # 指定模型名称。此值将用于在有效负载中调用模型
  labels:
    opendatahub.io/dashboard: 'true'
spec:
  predictor:
    maxReplicas: 1
    minReplicas: 1
    model:
      modelFormat:
        name: vLLM
      name: ''
      resources:
        limits:
          cpu: '2'			# 这是特定于模型的
          memory: 8Gi		# 这是特定于模型的
          nvidia.com/gpu: '1'	# 这是特定于加速器的
        requests:			# 此块同样适用
          cpu: '1'
          memory: 4Gi
          nvidia.com/gpu: '1'
      runtime: vllm-cuda-runtime	# 必须与上面的 ServingRuntime 名称匹配
      storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-3-3-70b-instruct-quantized-w8a8:1.5
    tolerations:
    - effect: NoSchedule
      key: nvidia.com/gpu
      operator: Exists

# 确保首先位于要部署模型的项目中
# oc project <项目名称>

# 应用两个资源以运行模型

# 应用 ServingRuntime
oc apply -f vllm-servingruntime.yaml

# 应用 InferenceService
oc apply -f qwen-inferenceservice.yaml

# 替换下面的 <推理服务名称> 和 <集群入口域名>:
# - 如果不确定，请运行 `oc get inferenceservice` 查找您的 URL。

# 使用 curl 调用服务器:
curl https://<推理服务名称>-predictor-default.<域名>/v1/chat/completions
        -H "Content-Type: application/json" \
        -d '{
    "model": "llama-3-3-70b-instruct-quantized-w8a8 ",
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "max_tokens": 1,
    "messages": [
        {
            "role": "user",
            "content": "How can a bee fly when its wings are so small?"
        }
    ]
}'

更多详细信息请参阅 Red Hat Openshift AI 文档。

📚 详细文档

模型概述

模型架构：Llama
- 输入：文本
- 输出：文本
模型优化：
- 激活量化：INT8
- 权重量化：INT8
预期用例：适用于多语言的商业和研究用途。与 Llama-3.3-70B-Instruct 类似，该模型旨在用于类似助手的聊天场景。
适用范围外：禁止以任何违反适用法律法规（包括贸易合规法律）的方式使用。
发布日期：2025 年 1 月 20 日
版本：1.0
模型开发者：Neural Magic

模型创建

本模型使用 llm-compressor 库创建，示例代码如下：

from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import Dataset
from llmcompressor.transformers import oneshot
from llmcompressor.modifiers.quantization import GPTQModifier
import random

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

num_samples = 1024
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_id)

max_token_id = len(tokenizer.get_vocab()) - 1
input_ids = [[random.randint(0, max_token_id) for _ in range(max_seq_len)] for _ in range(num_samples)]
attention_mask = num_samples * [max_seq_len * [1]]
ds = Dataset.from_dict({"input_ids": input_ids, "attention_mask": attention_mask})

recipe = GPTQModifier(
  targets="Linear",
  scheme="W8A8",
  ignore=["lm_head"],
  dampening_frac=0.01,
)

model = SparseAutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
)

oneshot(
  model=model,
  dataset=ds,
  recipe=recipe,
  max_seq_length=max_seq_len,
  num_calibration_samples=num_samples,
)

model.save_pretrained("Llama-3.3-70B-Instruct-quantized.w8a8")

模型评估

本模型在知名的 OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+ 基准测试中进行了评估。在所有情况下，模型输出均使用 vLLM 引擎生成。

OpenLLM v1 和 v2 评估使用 Neural Magic 对 lm-evaluation-harness 的分支（llama_3.1_instruct 分支）进行。此版本的 lm-evaluation-harness 包含与 Meta-Llama-3.1-Instruct-evals 提示风格匹配的 MMLU、ARC-Challenge 和 GSM-8K 版本，以及对 OpenLLM v2 任务的一些修复。

HumanEval 和 HumanEval+ 评估使用 Neural Magic 对 EvalPlus 仓库的分支进行。

准确性

类别	基准测试	Llama-3.3-70B-Instruct	Llama-3.3-70B-Instruct-quantized.w8a8（本模型）	恢复率
OpenLLM v1	MMLU (5-shot)	81.60	81.19	99.5%
OpenLLM v1	MMLU (CoT, 0-shot)	86.58	85.92	99.2%
OpenLLM v1	ARC Challenge (0-shot)	49.23	48.04	97.6%
OpenLLM v1	GSM-8K (CoT, 8-shot, strict-match)	94.16	94.01	99.8%
OpenLLM v1	Hellaswag (10-shot)	86.49	86.47	100.0%
OpenLLM v1	Winogrande (5-shot)	84.77	83.74	98.8%
OpenLLM v1	TruthfulQA (0-shot, mc2)	62.75	63.09	99.5%
OpenLLM v1	平均	77.94	77.49	99.4%
OpenLLM v2	MMLU-Pro (5-shot)	51.89	51.59	99.7%
OpenLLM v2	IFEval (0-shot)	90.89	90.68	99.4%
OpenLLM v2	BBH (3-shot)	63.15	62.54	99.0%
OpenLLM v2	Math-lvl-5 (4-shot)	0.17	0.00	N/A
OpenLLM v2	GPQA (0-shot)	46.10	46.44	100.8%
OpenLLM v2	MuSR (0-shot)	44.35	44.34	100.0%
OpenLLM v2	平均	49.42	49.27	99.7%
编码	HumanEval pass@1	83.20	83.30	100.1%
编码	HumanEval+ pass@1	78.40	78.60	100.3%
多语言	葡萄牙语 MMLU (5-shot)	79.76	79.47	99.6%
多语言	西班牙语 MMLU (5-shot)	79.33	79.23	99.9%
多语言	意大利语 MMLU (5-shot)	79.15	78.80	99.6%
多语言	德语 MMLU (5-shot)	77.94	77.92	100.0%
多语言	法语 MMLU (5-shot)	75.69	75.79	100.1%
多语言	印地语 MMLU (5-shot)	73.81	73.49	99.6%
多语言	泰语 MMLU (5-shot)	71.97	71.44	99.2%

复现结果

使用以下命令可复现评估结果：

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,tensor_parallel_size=1,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

葡萄牙语 MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_pt_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

西班牙语 MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_es_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

意大利语 MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_it_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

德语 MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_de_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

法语 MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_fr_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

印地语 MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_hi_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

泰语 MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_th_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

HumanEval 和 HumanEval+

生成

python3 codegen/generate.py \
  --model neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8 \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval

清理

python3 evalplus/sanitize.py \
  humaneval/neuralmagic-ent--Llama-3.3-70B-Instruct-quantized.w8a8_vllm_temp_0.2

评估

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/neuralmagic-ent--Llama-3.3-70B-Instruct-quantized.w8a8_vllm_temp_0.2-sanitized

🔧 技术细节

本模型通过将 Llama-3.3-70B-Instruct 的权重和激活量化为 INT8 数据类型获得。这种优化将表示权重和激活所需的位数从 16 位减少到 8 位，从而减少了 GPU 内存需求（约 50%），并提高了矩阵乘法计算吞吐量（约 2 倍）。权重量化还使磁盘大小需求减少了约 50%。

仅对 Transformer 块内线性算子的权重和激活进行量化。权重采用对称静态逐通道方案进行量化，即对每个输出通道维度在 INT8 和浮点表示之间应用固定的线性缩放因子。激活采用对称动态逐样本方案进行量化，即在运行时为每个样本计算 INT8 和浮点表示之间的线性缩放因子。

📄 许可证

本模型使用的许可证为 llama3.3。

📋 模型信息

属性	详情
模型类型	Llama
基础模型	meta-llama/Llama-3.3-70B-Instruct
支持语言	英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语、泰语
许可证	llama3.3