Llama-3.2-3B-Instruct-FP8-dynamicオープンソースモデル - 多言語対応、チャットアシスタントシーンに最適な選択肢

ホーム

Llama 3.2 3B Instruct FP8 Dynamic

RedHatAIによって開発

Llama-3.2-3B-InstructのFP8量子化バージョンで、多言語の商業および研究用途に適しており、特にアシスタントのようなチャットシナリオに最適です。

大規模言語モデル

Safetensors

複数言語対応#FP8量子化 #多言語アシスタント #効率的な推論

ダウンロード数 986

リリース時間 : 9/25/2024

モデル概要

このモデルはMeta-Llama-3.2-3B-Instructの量子化バージョンで、重みと活性化をFP8データ型に量子化することで、ディスクサイズとGPUメモリ要件を約50％削減しました。

モデル特徴

FP8量子化

重みと活性化をFP8データ型に量子化し、ディスクサイズとGPUメモリ要件を約50％削減。

多言語サポート

英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語など、複数の言語をサポート。

効率的な推論

最適化されたモデルは、vLLMバックエンドを使用した効率的な推論に適しています。

モデル能力

テキスト生成

多言語チャット

商業および研究用途

使用事例

チャットボット

多言語チャットアシスタント

アシスタントのようなチャットシナリオに適しており、複数の言語をサポートします。

OpenLLMベンチマークテストで平均スコアは50.88でした。

商業アプリケーション

ビジネスコンサルティング

ビジネスコンサルティングとQ&Aサービスを提供します。

🚀 Llama-3.2-3B-Instruct-FP8-dynamic

このモデルは、多言語に対応した商用および研究用途のテキスト生成モデルです。Meta-Llama-3.2 アーキテクチャをベースに、FP8 で量子化されており、vLLM を用いた推論に最適化されています。

🚀 クイックスタート

このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。以下に例を示します。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic"

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM は OpenAI 互換のサービングもサポートしています。詳細はドキュメントを参照してください。

✨ 主な機能

多言語対応：英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語など、複数の言語に対応しています。
量子化最適化：重みと活性化関数を FP8 データ型に量子化することで、ディスクサイズと GPU メモリ要件を約 50% 削減しています。
vLLM 対応：vLLM を用いた高速な推論が可能です。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。

pip install vllm transformers

💻 使用例

基本的な使用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic"

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高度な使用法

# 高度な設定を行う場合の例
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic"

# 高度なサンプリングパラメータの設定
sampling_params = SamplingParams(temperature=0.8, top_p=0.95, max_tokens=512, repetition_penalty=1.2)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a knowledgeable assistant with a wide range of expertise."},
    {"role": "user", "content": "Explain the theory of relativity in simple terms."},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

📚 ドキュメント

モデル概要

属性	详情
モデルタイプ	Meta-Llama-3.2
入力	テキスト
出力	テキスト
重み量子化	FP8
活性化量子化	FP8
想定使用ケース	商用および研究用途の多言語対応アシスタントチャット
非対象用途	適用される法律や規制（貿易コンプライアンス法を含む）に違反する使用、英語以外の言語での使用
リリース日	2024年9月25日
バージョン	1.0
ライセンス	llama3.2
モデル開発者	Neural Magic

このモデルは Llama-3.2-3B-Instruct の量子化バージョンです。OpenLLM ベンチマーク（バージョン 1）の一部のタスクで平均スコア 50.88 を達成しており、量子化されていないモデルは 51.70 を達成しています。

モデル最適化

このモデルは、Llama-3.2-3B-Instruct の重みと活性化関数を FP8 データ型に量子化することで得られました。この最適化により、パラメータごとのビット数が 16 から 8 に減少し、ディスクサイズと GPU メモリ要件が約 50% 削減されます。

トランスフォーマーブロック内の線形演算子の重みと活性化関数のみが量子化されています。対称的なチャネルごとの量子化が適用されており、出力次元ごとの線形スケーリングによって、量子化された重みと活性化関数の FP8 表現がマッピングされます。活性化関数はトークンごとに動的に量子化されます。量子化には LLM Compressor が使用されています。

モデルの作成

このモデルは、以下のコードスニペットに示すように、LLM Compressor を適用することで作成されました。

import torch

from transformers import AutoTokenizer

from llmcompressor.transformers import SparseAutoModelForCausalLM, oneshot
from llmcompressor.transformers.compression.helpers import (  # noqa
    calculate_offload_device_map,
    custom_offload_device_map,
)

recipe = """
quant_stage:
    quant_modifiers:
        QuantizationModifier:
            ignore: ["lm_head"]
            config_groups:
                group_0:
                    weights:
                        num_bits: 8
                        type: float
                        strategy: channel
                        dynamic: false
                        symmetric: true
                    input_activations:
                        num_bits: 8
                        type: float
                        strategy: token
                        dynamic: true
                        symmetric: true
                    targets: ["Linear"]
"""

model_stub = "meta-llama/Llama-3.2-3B-Instruct"
model_name = model_stub.split("/")[-1]

device_map = calculate_offload_device_map(
    model_stub, reserve_for_hessians=False, num_gpus=1, torch_dtype="auto"
)

model = SparseAutoModelForCausalLM.from_pretrained(
    model_stub, torch_dtype="auto", device_map=device_map
)

output_dir = f"./{model_name}-FP8-dynamic"

oneshot(
    model=model,
    recipe=recipe,
    output_dir=output_dir,
    save_compressed=True,
    tokenizer=AutoTokenizer.from_pretrained(model_stub),
)

評価

このモデルは、MMLU、ARC-Challenge、GSM-8K、Winogrande で評価されました。評価は、Neural Magic のフォーク版 lm-evaluation-harness（ブランチ llama_3.1_instruct）と vLLM エンジンを使用して行われました。このバージョンの lm-evaluation-harness には、Meta-Llama-3.1-Instruct-evals のプロンプトスタイルに一致する ARC-Challenge、GSM-8K、MMLU、MMLU-cot のバージョンが含まれています。

精度

ベンチマーク	Llama-3.2-3B-Instruct	Llama-3.2-3B-Instruct-FP8-dynamic (このモデル)	回復率
MMLU (5-shot)	62.98	62.95	100.0%
MMLU-cot (0-shot)	65.40	65.23	99.7%
ARC Challenge (0-shot)	77.13	76.71	99.4%
GSM-8K-cot (8-shot, strict-match)	77.94	76.72	98.4%
Winogrande (5-shot)	71.11	71.11	100.0%
Hellaswag (10-shot)	73.62	73.54	99.9%
TruthfulQA (0-shot, mc2)	51.47	51.06	99.2%
平均	68.52	68.19	99.5%

再現性

結果は、以下のコマンドを使用して取得されました。

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/Llama-3.2-3B-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto