Meta-Llama-3.1-8B-Instruct量化開源模型 - 多語言商業研究免費可用

首頁

Meta Llama 3.1 8B Instruct Quantized.w8a8

由RedHatAI開發

這是Meta-Llama-3.1-8B-Instruct模型的INT8量化版本，通過權重量化和激活量化優化，適用於多語言商業和研究用途。

大型語言模型

Transformers

支持多種語言#INT8量化 #多語言助手 #高效推理

下載量 9,087

發布時間 : 4/25/2025

模型概述

該模型是Meta-Llama-3.1-8B-Instruct的量化版本，適用於類似助手的聊天場景，支持多種語言。

模型特點

INT8量化

通過將權重和激活量化為INT8，顯著降低GPU內存需求和磁盤空間佔用。

高效推理

量化優化提高了矩陣乘法計算吞吐量約2倍，適合高效部署。

多語言支持

支持包括英語、德語、法語等多種語言的文本生成任務。

模型能力

文本生成

多語言處理

聊天助手

使用案例

聊天機器人

多語言聊天助手

部署為支持多種語言的聊天機器人，提供自然流暢的對話體驗。

在Arena-Hard評估中達到105.4%的恢復率。

商業應用

客戶服務自動化

用於自動化客戶服務，處理多語言客戶諮詢。

🚀 Meta-Llama-3.1-8B-Instruct量化模型（w8a8）

本項目是Meta-Llama-3.1-8B-Instruct的量化版本，通過將權重和激活量化為INT8數據類型，減少了GPU內存需求和磁盤空間佔用，同時提高了計算吞吐量。該模型支持多語言，適用於商業和研究用途，可用於類似助手的聊天場景。

🚀 快速開始

此模型可使用 vLLM 後端高效部署，示例代碼如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持與 OpenAI 兼容的服務，更多詳細信息請參閱文檔。

✨ 主要特性

模型架構：Meta-Llama-3，輸入輸出均為文本。
模型優化：採用 INT8 激活量化和權重量化，減少 GPU 內存需求約 50%，提高矩陣乘法計算吞吐量約 2 倍，同時磁盤空間需求也減少約 50%。
多語言支持：支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等多種語言。
適用場景：適用於商業和研究用途，可用於類似助手的聊天場景。

📦 模型信息

屬性	詳情
模型類型	Meta-Llama-3.1-8B-Instruct 量化版本（w8a8）
訓練數據	未提及
支持語言	英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語、泰語
發佈日期	2024 年 7 月 11 日
版本	1.0
許可證	Llama3.1
模型開發者	Neural Magic

💻 使用示例

基礎用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高級用法

# 此代碼展示瞭如何使用 vLLM 生成文本，並對生成的文本進行處理
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
# 對生成的文本進行處理，例如去除首尾空格
processed_text = generated_text.strip()
print(processed_text)

📚 詳細文檔

模型創建

此模型使用 llm-compressor 庫創建，示例代碼如下：

from transformers import AutoTokenizer
from datasets import Dataset
from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot
from llmcompressor.modifiers.quantization import GPTQModifier
import random

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

num_samples = 256
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_id)

max_token_id = len(tokenizer.get_vocab()) - 1
input_ids = [[random.randint(0, max_token_id) for _ in range(max_seq_len)] for _ in range(num_samples)]
attention_mask = num_samples * [max_seq_len * [1]]
ds = Dataset.from_dict({"input_ids": input_ids, "attention_mask": attention_mask})

recipe = GPTQModifier(
  targets="Linear",
  scheme="W8A8",
  ignore=["lm_head"],
  dampening_frac=0.01,
)

model = SparseAutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
)

oneshot(
  model=model,
  dataset=ds,
  recipe=recipe,
  max_seq_length=max_seq_len,
  num_calibration_samples=num_samples,
)

model.save_pretrained("Meta-Llama-3.1-8B-Instruct-quantized.w8a8")

模型評估

此模型在 Arena-Hard、OpenLLM v1、OpenLLM v2、HumanEval 和 HumanEval+ 等知名基準測試中進行了評估，所有評估均使用 vLLM 引擎生成模型輸出。

評估結果

類別	基準測試	Meta-Llama-3.1-8B-Instruct	Meta-Llama-3.1-8B-Instruct-quantized.w8a8（本模型）	恢復率
LLM 評判	Arena Hard	25.8 (25.1 / 26.5)	27.2 (27.6 / 26.7)	105.4%
OpenLLM v1	MMLU (5-shot)	68.3	67.8	99.3%
OpenLLM v1	MMLU (CoT, 0-shot)	72.8	72.2	99.1%
OpenLLM v1	ARC Challenge (0-shot)	81.4	81.7	100.3%
OpenLLM v1	GSM-8K (CoT, 8-shot, strict-match)	82.8	84.8	102.5%
OpenLLM v1	Hellaswag (10-shot)	80.5	80.3	99.8%
OpenLLM v1	Winogrande (5-shot)	78.1	78.5	100.5%
OpenLLM v1	TruthfulQA (0-shot, mc2)	54.5	54.7	100.3%
OpenLLM v1	平均	74.1	74.3	100.3%
OpenLLM v2	MMLU-Pro (5-shot)	30.8	30.9	100.3%
OpenLLM v2	IFEval (0-shot)	77.9	78.0	100.1%
OpenLLM v2	BBH (3-shot)	30.1	31.0	102.9%
OpenLLM v2	Math-lvl-5 (4-shot)	15.7	15.5	98.9%
OpenLLM v2	GPQA (0-shot)	3.7	5.4	146.2%
OpenLLM v2	MuSR (0-shot)	7.6	7.6	100.0%
OpenLLM v2	平均	27.6	28.0	101.5%
編碼	HumanEval pass@1	67.3	67.1	99.7%
編碼	HumanEval+ pass@1	60.7	60.0	98.8%
多語言	葡萄牙語 MMLU (5-shot)	59.96	59.36	99.0%
多語言	西班牙語 MMLU (5-shot)	60.25	59.77	99.2%
多語言	意大利語 MMLU (5-shot)	59.23	58.61	99.0%
多語言	德語 MMLU (5-shot)	58.63	58.23	99.3%
多語言	法語 MMLU (5-shot)	59.65	58.70	98.4%
多語言	印地語 MMLU (5-shot)	50.10	49.33	98.5%
多語言	泰語 MMLU (5-shot)	49.12	48.09	97.9%

結果復現

以下是復現評估結果的命令：

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,tensor_parallel_size=1,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

MMLU 葡萄牙語

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_pt_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 西班牙語

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_es_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 意大利語

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_it_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 德語

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_de_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 法語

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_fr_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 印地語

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_hi_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU 泰語

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_th_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

HumanEval 和 HumanEval+

生成

python3 codegen/generate.py \
  --model neuralmagic/Meta-Llama-3.1-8B-Instruct-quantized.w8a8 \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval

清理

python3 evalplus/sanitize.py \
  humaneval/neuralmagic--Meta-Llama-3.1-8B-Instruct-quantized.w8a8_vllm_temp_0.2

評估

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/neuralmagic--Meta-Llama-3.1-8B-Instruct-quantized.w8a8_vllm_temp_0.2-sanitized

🔧 技術細節

模型優化

此模型通過將 Meta-Llama-3.1-8B-Instruct 的權重量化為 INT8 數據類型獲得。這種優化將表示權重和激活的位數從 16 位減少到 8 位，從而減少了 GPU 內存需求（約 50%）並提高了矩陣乘法計算吞吐量（約 2 倍）。權重量化還將磁盤空間需求減少了約 50%。

僅對 Transformer 塊內線性算子的權重和激活進行量化。權重採用對稱靜態逐通道方案進行量化，為每個輸出通道維度在 INT8 和浮點表示之間應用固定的線性縮放因子。激活採用對稱動態逐令牌方案進行量化，在運行時為每個令牌計算 INT8 和浮點表示之間的線性縮放因子。量化使用 GPTQ 算法，該算法在 llm-compressor 庫中實現。GPTQ 使用 1% 的阻尼因子和 256 個長度為 8192 的隨機令牌序列。