Llama-3.2-1B-Instruct-FP8オープンソースモデル - 多言語の商業調査シーンに適し、性能はオリジナル版に近い

ホーム

Llama 3.2 1B Instruct FP8

RedHatAIによって開発

Llama-3.2-1B-InstructのFP8量子化バージョンで、多言語シナリオにおけるビジネスおよび研究用途に適しており、オリジナルモデルに近い性能を発揮します。

大規模言語モデル

Safetensors

複数言語対応#FP8量子化 #多言語アシスタント #低VRAM要件

ダウンロード数 1,718

リリース時間 : 9/26/2024

モデル概要

これはLlama-3アーキテクチャに基づく1Bパラメータの命令微調整モデルで、FP8量子化最適化が施されており、アシスタント型対話シナリオに適しています。

モデル特徴

FP8量子化

重みと活性化の両方にFP8量子化を採用し、メモリ要件を50%削減、計算スループットを2倍向上

多言語サポート

8言語のテキスト生成タスクをサポート

高性能維持

複数のベンチマークテストで性能劣化が1%未満、オリジナルモデルに近い

効率的なデプロイ

vLLMバックエンドでのデプロイをサポートし、OpenAI互換サービスを提供

モデル能力

多言語テキスト生成

アシスタント型対話

知識質問応答

タスク完了

使用事例

インテリジェントアシスタント

多言語カスタマーサービスボット

複数言語をサポートするオンラインカスタマーサービスアシスタントとして展開

一般的な顧客問い合わせに対応可能、8言語をサポート

教育

言語学習アシスタント

言語学習者の会話練習パートナーとして

多言語インタラクティブ体験を提供

🚀 Llama-3.2-1B-Instruct-FP8

このモデルは、多言語対応のテキスト生成モデルで、Llama-3.2-1B-Instruct をFP8に量子化したものです。商用や研究用途に適しており、GPUメモリの使用量を削減し、計算スループットを向上させます。

🚀 クイックスタート

このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。以下は使用例です。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Llama-3.2-1B-Instruct-FP8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサービングもサポートしています。詳細はドキュメントを参照してください。

✨ 主な機能

多言語対応：英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語などの多言語に対応しています。
量子化最適化：重みと活性化関数をFP8に量子化することで、GPUメモリの使用量を約50%削減し、計算スループットを約2倍に向上させます。
高い精度：MMLU、ARC-Challenge、GSM-8k、Hellaswag、Winogrande、TruthfulQAなどのベンチマークで、非量子化モデルと同等の精度を達成しています。

📦 モデル概要

属性	详情
モデルタイプ	Llama-3
入力	テキスト
出力	テキスト
モデル最適化	活性化関数の量子化: FP8、重みの量子化: FP8
想定使用ケース	商用および研究用途の多言語テキスト生成、アシスタントチャット
適用範囲外	適用される法律や規制に違反する使用
リリース日	2024年9月25日
バージョン	1.0
ライセンス	Llama3.2
モデル開発者	Neural Magic

このモデルは、Llama-3.2-1B-Instruct の量子化バージョンで、MMLU、ARC-Challenge、GSM-8k、Hellaswag、Winogrande、TruthfulQAのスコアが非量子化モデルの1.0%以内に収まっています。

モデル最適化

このモデルは、Llama-3.2-1B-Instruct の重みをFP8データ型に量子化することで得られました。この最適化により、重みと活性化関数を表すビット数が16から8に減少し、GPUメモリの使用量が約50%削減され、行列乗算の計算スループットが約2倍に向上します。重みの量子化により、ディスクサイズの要件も約50%削減されます。

トランスフォーマーブロック内の線形演算子の重みと活性化関数のみが量子化されます。重みは、各出力チャネル次元に対してFP8と浮動小数点数表現の間に固定の線形スケーリング係数を適用する対称的な静的チャネルごとのスキームで量子化されます。活性化関数は、活性化テンソル全体に対してFP8と浮動小数点数表現の間に固定の線形スケーリング係数を適用する対称的なテンソルごとのスキームで量子化されます。重みは、最も近いFP8表現に丸められて量子化されます。

モデルの量子化には、llm-compressor ライブラリが使用され、Neural Magicの LLM compression calibration dataset から取得した512シーケンスが使用されました。

💻 使用例

基本的な使用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Llama-3.2-1B-Instruct-FP8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高度な使用法

from transformers import AutoTokenizer
from datasets import load_dataset
from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot
from llmcompressor.modifiers.quantization import QuantizationModifier

model_id = "meta-llama/Llama-3.2-1B-Instruct"

num_samples = 512
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_id)

def preprocess_fn(example):
  return {"text": tokenizer.apply_chat_template(example["messages"], add_generation_prompt=False, tokenize=False)}

ds = load_dataset("neuralmagic/LLM_compression_calibration", split="train")
ds = ds.shuffle().select(range(num_samples))
ds = ds.map(preprocess_fn)

recipe = QuantizationModifier(
    targets="Linear",
    scheme="FP8",
    ignore=["lm_head"],
  )
]

model = SparseAutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
)

oneshot(
  model=model,
  dataset=ds,
  recipe=recipe,
  max_seq_length=max_seq_len,
  num_calibration_samples=num_samples,
)

model.save_pretrained("Llama-3.2-1B-Instruct-FP8")

🔧 技術詳細

このモデルの評価は、Neural Magicフォークの lm-evaluation-harness （ブランチ llama_3.1_instruct）と vLLM エンジンを使用して行われました。このバージョンの lm-evaluation-harness には、Meta-Llama-3.1-Instruct-evals のプロンプトスタイルに一致するMMLU、ARC-Challenge、GSM-8Kのバージョンが含まれています。

精度

Open LLM Leaderboard評価スコア

ベンチマーク	Llama-3.2-1B-Instruct	Llama-3.2-1B-Instruct-FP8 (このモデル)	回復率
MMLU (5-shot)	47.66	47.76	100.2%
MMLU (CoT, 0-shot)	47.10	47.24	94.8%
ARC Challenge (0-shot)	58.36	57.85	99.1%
GSM-8K (CoT, 8-shot, strict-match)	45.72	45.49	99.5%
Hellaswag (10-shot)	61.01	61.00	100.0%
Winogrande (5-shot)	62.27	62.35	100.1%
TruthfulQA (0-shot, mc2)	43.52	43.08	99.0%
平均	52.24	52.11	99.8%

再現方法

結果は以下のコマンドを使用して取得されました。

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-1B-Instruct-FP8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto