Llama-3.2-1B-Instruct-FP8开源模型 - 适用于多语言商研场景，性能近原版

首页

Llama 3.2 1B Instruct FP8

由 RedHatAI 开发

Llama-3.2-1B-Instruct的FP8量化版本，适用于多语言场景的商业和研究用途，性能接近原始模型。

大型语言模型

Safetensors

支持多种语言#FP8量化 #多语言助手 #低显存需求

下载量 1,718

发布时间 : 9/26/2024

模型简介

这是一个基于Llama-3架构的1B参数指令微调模型，经过FP8量化优化，适用于类助手式对话场景。

模型特点

FP8量化

权重和激活均采用FP8量化，减少50%内存需求，提升2倍计算吞吐量

多语言支持

支持8种语言的文本生成任务

高性能保持

在多个基准测试中性能损失小于1%，接近原始模型

高效部署

支持vLLM后端部署，提供OpenAI兼容服务

模型能力

多语言文本生成

助手式对话

知识问答

任务完成

使用案例

智能助手

多语言客服机器人

部署为支持多种语言的在线客服助手

可处理常见客户咨询，支持8种语言

教育

语言学习助手

作为语言学习者的对话练习伙伴

提供多语言互动体验

🚀 Llama-3.2-1B-Instruct-FP8

Llama-3.2-1B-Instruct-FP8 是 Llama-3.2-1B-Instruct 的量化版本，在多语言处理上表现出色，适用于商业和研究用途。它通过量化优化，减少了 GPU 内存需求和磁盘空间占用，同时保持了较高的性能。

🚀 快速开始

此模型可以使用 vLLM 后端高效部署，以下是一个示例代码：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Llama-3.2-1B-Instruct-FP8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 还支持与 OpenAI 兼容的服务，更多详细信息请参阅文档。

✨ 主要特性

多语言支持：支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语等多种语言。
模型优化：通过将权重和激活量化为 FP8 数据类型，减少了 GPU 内存需求（约 50%），提高了矩阵乘法计算吞吐量（约 2 倍），同时也减少了磁盘大小需求（约 50%）。
高性能表现：在 MMLU、ARC-Challenge、GSM-8k、Hellaswag、Winogrande 和 TruthfulQA 等基准测试中，得分与未量化模型的得分相差在 1.0% 以内。

📦 安装指南

文档中未提及具体安装步骤，可参考相关依赖库（如 vLLM、transformers 等）的官方文档进行安装。

💻 使用示例

基础用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Llama-3.2-1B-Instruct-FP8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高级用法

文档中未明确提及高级用法相关代码，可根据具体需求调整参数或结合其他技术进行使用。

📚 详细文档

模型概述

属性	详情
模型类型	Llama-3
输入	文本
输出	文本
模型优化	激活量化：FP8；权重量化：FP8
预期用例	适用于多语言的商业和研究用途，类似于 Llama-3.2-1B-Instruct，用于类似助手的聊天场景
超出范围	任何违反适用法律法规（包括贸易合规法律）的使用方式
发布日期	2024 年 9 月 25 日
版本	1.0
许可证	Llama3.2
模型开发者	Neural Magic

模型优化

该模型通过将 Llama-3.2-1B-Instruct 的权重量化为 FP8 数据类型获得。这种优化将表示权重和激活的位数从 16 位减少到 8 位，从而减少了 GPU 内存需求（约 50%），并提高了矩阵乘法计算吞吐量（约 2 倍）。权重量化还将磁盘大小需求减少了约 50%。

仅对 Transformer 块内线性算子的权重和激活进行量化。权重采用对称静态逐通道方案进行量化，即对每个输出通道维度在 FP8 和浮点表示之间应用固定的线性缩放因子。激活采用对称逐张量方案进行量化，即对整个激活张量在 FP8 和浮点表示之间应用固定的线性缩放因子。权重通过四舍五入到最接近的 FP8 表示进行量化。使用 llm-compressor 库对模型进行量化，使用了来自 Neural Magic 的 LLM 压缩校准数据集的 512 个序列。

模型创建

该模型使用 llm-compressor 库创建，以下是创建模型的代码示例：

from transformers import AutoTokenizer
from datasets import load_dataset
from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot
from llmcompressor.modifiers.quantization import QuantizationModifier

model_id = "meta-llama/Llama-3.2-1B-Instruct"

num_samples = 512
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_id)

def preprocess_fn(example):
  return {"text": tokenizer.apply_chat_template(example["messages"], add_generation_prompt=False, tokenize=False)}

ds = load_dataset("neuralmagic/LLM_compression_calibration", split="train")
ds = ds.shuffle().select(range(num_samples))
ds = ds.map(preprocess_fn)

recipe = QuantizationModifier(
    targets="Linear",
    scheme="FP8",
    ignore=["lm_head"],
  )
]

model = SparseAutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
)

oneshot(
  model=model,
  dataset=ds,
  recipe=recipe,
  max_seq_length=max_seq_len,
  num_calibration_samples=num_samples,
)

model.save_pretrained("Llama-3.2-1B-Instruct-FP8")

模型评估

该模型在 MMLU、ARC-Challenge、GSM-8K、Hellaswag、Winogrande 和 TruthfulQA 上进行了评估。评估使用了 Neural Magic 对 lm-evaluation-harness 的分支（llama_3.1_instruct 分支）和 vLLM 引擎。此版本的 lm-evaluation-harness 包含与 Meta-Llama-3.1-Instruct-evals 提示风格匹配的 MMLU、ARC-Challenge 和 GSM-8K 版本。

准确性

Open LLM 排行榜评估得分

基准测试	Llama-3.2-1B-Instruct	Llama-3.2-1B-Instruct-FP8 (本模型)	恢复率
MMLU (5-shot)	47.66	47.76	100.2%
MMLU (CoT, 0-shot)	47.10	47.24	94.8%
ARC Challenge (0-shot)	58.36	57.85	99.1%
GSM-8K (CoT, 8-shot, strict-match)	45.72	45.49	99.5%
Hellaswag (10-shot)	61.01	61.00	100.0%
Winogrande (5-shot)	62.27	62.35	100.1%
TruthfulQA (0-shot, mc2)	43.52	43.08	99.0%
平均	52.24	52.11	99.8%

复现结果

使用以下命令可以复现评估结果：

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto