Llama 4 Scout 17B 16E Instruct FP8 Dynamic

RedHatAIによって開発

Llama-4をベースに構築された17Bパラメータの多言語命令モデル、FP8量子化を採用しリソース要件を大幅に削減

画像生成テキスト

Safetensors

複数言語対応オープンソースライセンス:その他 #FP8量子化加速 #マルチモーダル命令理解 #多言語生成

ダウンロード数 5,812

リリース時間 : 4/10/2025

モデル概要

これはFP8量子化された多言語大規模言語モデルで、テキストと画像の入力をサポートし、テキスト応答を出力します。量子化技術によりメモリ要件とディスク容量を50%削減し、計算効率を向上させます。

モデル特徴

FP8量子化最適化

重みと活性化値の両方にFP8量子化を採用、メモリ要件とディスク容量を50%削減し、計算スループットを2倍向上

マルチモーダルサポート

画像とテキスト入力をサポートし、マルチモーダルタスクを処理可能

多言語能力

12言語のテキスト処理と生成をサポート

モデル能力

テキスト生成

画像理解

多言語処理

命令追従

使用事例

インテリジェントアシスタント

多言語カスタマーサービスボット

複数言語をサポートするインテリジェントカスタマーサービスシステムの構築

12言語の顧客問い合わせを円滑に処理可能

コンテンツ生成

多言語コンテンツ作成

多言語マーケティングコピーやソーシャルメディアコンテンツの自動生成

library_name: vllm language:

ar
de
en
es
fr
hi
id
it
pt
th
tl
vi base_model:
meta-llama/Llama-4-Scout-17B-16E-Instruct pipeline_tag: image-text-to-text tags:
facebook
meta
pytorch
llama
llama4
neuralmagic
redhat
llmcompressor
quantized
FP8 license: other license_name: llama4

Llama-4-Scout-17B-16E-Instruct-FP8-dynamic

Llamaで構築

モデル概要

モデルアーキテクチャ: Llama4ForConditionalGeneration
- 入力: テキスト / 画像
- 出力: テキスト
モデル最適化:
- 活性化量子化: FP8
- 重み量子化: FP8
リリース日: 2025年4月15日
バージョン: 1.0
モデル開発者: Red Hat (Neural Magic)

モデル最適化

このモデルは、Llama-4-Scout-17B-16E-Instructの活性化と重みをFP8データ型に量子化して得られました。この最適化により、重みと活性化を表現するために使用されるビット数が16から8に減少し、GPUメモリ要件を約50%削減し、行列乗算の計算スループットを約2倍向上させます。重み量子化により、ディスクサイズ要件も約50%削減されます。量子化にはllm-compressorライブラリが使用されています。

デプロイ

このモデルは、以下の例に示すように、vLLMバックエンドを使用して効率的にデプロイできます。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic"
number_gpus = 4

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "Give me a short introduction to large language model."

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompt, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサービスもサポートしています。詳細はドキュメントを参照してください。

作成

作成詳細

このモデルは、以下のコードスニペットを実行して[llm-compressor](https://github.com/vllm-project/llm-compressor)で作成されました。

#!/usr/bin/env python3
"""
このスクリプトはLLMモデルをロードし、重みと活性化にFP8量子化を適用します。
活性化は動的に量子化されます、つまり実際の実行時に行われます。
"""

import argparse
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, Llama4ForConditionalGeneration
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor import oneshot
from compressed_tensors.quantization import (
    QuantizationScheme,
    QuantizationArgs,
    QuantizationType,
    QuantizationStrategy,
)


def parse_arguments():
    """コマンドライン引数を解析します。"""
    parser = argparse.ArgumentParser(description="因果言語モデルを量子化します")
    parser.add_argument(
        "--model_path",
        type=str,
        required=True,
        help="事前学習済みモデルのパス",
    )
    parser.add_argument(
        "--quant_path",
        type=str,
        required=True,
        help="量子化モデルの出力パス",
    )
    return parser.parse_args()


def main():
    """モデルをロードして量子化するメイン関数。"""
    args = parse_arguments()

    print(f"{args.model_path}からモデルをロード中...")
    model = Llama4ForConditionalGeneration.from_pretrained(
        args.model_path,
        device_map="auto",
        torch_dtype="auto",
        trust_remote_code=True,
    )

    quant_scheme = QuantizationScheme(
        targets=["Linear"],
        weights=QuantizationArgs(
            num_bits=8,
            type=QuantizationType.FLOAT,
            strategy=QuantizationStrategy.CHANNEL,
            symmetric=True,
            observer="mse",
        ),
        input_activations=QuantizationArgs(
            num_bits=8,
            type=QuantizationType.FLOAT,
            strategy=QuantizationStrategy.TOKEN,
            symmetric=True,
            dynamic=True,
        ),
        output_activations=None,
    )

    recipe = QuantizationModifier(
        targets="Linear",
        config_groups={"group_0": quant_scheme},
        ignore=[
            're:.*lm_head',
            're:.*self_attn',
            're:.*router',
            're:.*vision_model',
            're:.*multi_modal_projector',
        ]
    )

    print("量子化を適用中...")
    oneshot(
        model=model,
        recipe=recipe,
        trust_remote_code_model=True,
    )

    model.save_pretrained(args.quant_path, save_compressed=True, skip_compression_stats=True, disable_sparse_compression=True)
    print(f"量子化モデルを{args.quant_path}に保存しました")


if __name__ == "__main__":
    main()

評価

このモデルは、OpenLLMリーダーボードタスク（v1およびv2）、長文コンテキストRULER、マルチモーダルMMMU、マルチモーダルChartQAで評価されました。すべての評価はlm-evaluation-harnessを通じて取得されました。

評価詳細

OpenLLM v1

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8,gpu_memory_utilization=0.7,enable_chunked_prefill=True,trust_remote_code=True \
  --tasks openllm \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=16384,tensor_parallel_size=8,gpu_memory_utilization=0.5,enable_chunked_prefill=True,trust_remote_code=True \
  --tasks leaderboard \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --batch_size auto

長文コンテキスト RULER

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=524288,tensor_parallel_size=8,gpu_memory_utilization=0.9,enable_chunked_prefill=True,trust_remote_code=True \
  --tasks ruler \
  --metadata='{"max_seq_lengths":[131072]}' \
  --batch_size auto

マルチモーダル MMMU

lm_eval \
  --model vllm-vlm \
  --model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=1000000,tensor_parallel_size=8,gpu_memory_utilization=0.9,enable_chunked_prefill=True,trust_remote_code=True,max_images=10 \
  --tasks mmmu_val \
  --apply_chat_template \
  --batch_size auto

マルチモーダル ChartQA

export VLLM_MM_INPUT_CACHE_GIB=8
lm_eval \
  --model vllm-vlm \
  --model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=1000000,tensor_parallel_size=8,gpu_memory_utilization=0.9,enable_chunked_prefill=True,trust_remote_code=True,max_images=10 \
  --tasks chartqa \
  --apply_chat_template \
  --batch_size auto

精度

	回復率 (%)	meta-llama/Llama-4-Scout-17B-16E-Instruct	RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic (このモデル)
ARC-Challenge 25ショット	100.36	69.37	69.62
GSM8k 5ショット	99.24	90.45	89.76
HellaSwag 10ショット	99.94	85.23	85.18
MMLU 5ショット	99.94	80.54	80.49
TruthfulQA 0ショット	99.17	61.41	60.90
WinoGrande 5ショット	98.88	77.90	77.03
OpenLLM v1 平均スコア	99.59	77.48	77.16
IFEval 0ショットインストとプロンプト精度の平均	100.91	86.90	87.69
Big Bench Hard 3ショット	99.82	65.13	65.01
Math Lvl 5 4ショット	98.82	57.78	57.10
GPQA 0ショット	100.53	31.88	32.05
MuSR 0ショット	102.18	42.20	43.12
MMLU-Pro 5ショット	99.82	55.70	55.60
OpenLLM v2 平均スコア	100.28	56.60	56.76
RULER seqlen = 131072 niah_multikey_1	101.36	88.20	89.40
RULER seqlen = 131072 niah_multikey_2	100.72	83.60	84.20
RULER seqlen = 131072 niah_multikey_3	96.19	78.80	75.80
RULER seqlen = 131072 niah_multiquery	100.79	95.40	96.15
RULER seqlen = 131072 niah_multivalue	97.22	73.75	71.70
RULER seqlen = 131072 niah_single_1	100.00	100.00	100.00
RULER seqlen = 131072 niah_single_2	100.00	99.80	99.80
RULER seqlen = 131072 niah_single_3	100.00	99.80	99.80
RULER seqlen = 131072 ruler_cwe	96.19	39.42	37.92
RULER seqlen = 131072 ruler_fwe	98.86	92.93	91.87
RULER seqlen = 131072 ruler_qa_hotpot	100.00	48.20	48.20
RULER seqlen = 131072 ruler_qa_squad	98.81	53.57	52.93
RULER seqlen = 131072 ruler_qa_vt	100.35	92.28	92.60
RULER seqlen = 131072 平均スコア	99.49	80.44	80.03
MMMU 0ショット	97.92	53.44	52.33
ChartQA 0ショット完全一致	100.12	65.88	65.96
ChartQA 0ショット緩和精度	99.69	88.92	88.64
マルチモーダル平均スコア	99.38	69.41	68.98