Llama 4 Scout 17B 16E Instruct FP8 Dynamic
Llama-4をベースに構築された17Bパラメータの多言語命令モデル、FP8量子化を採用しリソース要件を大幅に削減
ダウンロード数 5,812
リリース時間 : 4/10/2025
モデル概要
これはFP8量子化された多言語大規模言語モデルで、テキストと画像の入力をサポートし、テキスト応答を出力します。量子化技術によりメモリ要件とディスク容量を50%削減し、計算効率を向上させます。
モデル特徴
FP8量子化最適化
重みと活性化値の両方にFP8量子化を採用、メモリ要件とディスク容量を50%削減し、計算スループットを2倍向上
マルチモーダルサポート
画像とテキスト入力をサポートし、マルチモーダルタスクを処理可能
多言語能力
12言語のテキスト処理と生成をサポート
モデル能力
テキスト生成
画像理解
多言語処理
命令追従
使用事例
インテリジェントアシスタント
多言語カスタマーサービスボット
複数言語をサポートするインテリジェントカスタマーサービスシステムの構築
12言語の顧客問い合わせを円滑に処理可能
コンテンツ生成
多言語コンテンツ作成
多言語マーケティングコピーやソーシャルメディアコンテンツの自動生成
library_name: vllm language:
- ar
- de
- en
- es
- fr
- hi
- id
- it
- pt
- th
- tl
- vi base_model:
- meta-llama/Llama-4-Scout-17B-16E-Instruct pipeline_tag: image-text-to-text tags:
- meta
- pytorch
- llama
- llama4
- neuralmagic
- redhat
- llmcompressor
- quantized
- FP8 license: other license_name: llama4
Llama-4-Scout-17B-16E-Instruct-FP8-dynamic
Llamaで構築
モデル概要
- モデルアーキテクチャ: Llama4ForConditionalGeneration
- 入力: テキスト / 画像
- 出力: テキスト
- モデル最適化:
- 活性化量子化: FP8
- 重み量子化: FP8
- リリース日: 2025年4月15日
- バージョン: 1.0
- モデル開発者: Red Hat (Neural Magic)
モデル最適化
このモデルは、Llama-4-Scout-17B-16E-Instructの活性化と重みをFP8データ型に量子化して得られました。 この最適化により、重みと活性化を表現するために使用されるビット数が16から8に減少し、GPUメモリ要件を約50%削減し、行列乗算の計算スループットを約2倍向上させます。 重み量子化により、ディスクサイズ要件も約50%削減されます。量子化にはllm-compressorライブラリが使用されています。
デプロイ
このモデルは、以下の例に示すように、vLLMバックエンドを使用して効率的にデプロイできます。
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic"
number_gpus = 4
sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)
tokenizer = AutoTokenizer.from_pretrained(model_id)
prompt = "Give me a short introduction to large language model."
llm = LLM(model=model_id, tensor_parallel_size=number_gpus)
outputs = llm.generate(prompt, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLMはOpenAI互換のサービスもサポートしています。詳細はドキュメントを参照してください。
作成
作成詳細
このモデルは、以下のコードスニペットを実行して[llm-compressor](https://github.com/vllm-project/llm-compressor)で作成されました。#!/usr/bin/env python3
"""
このスクリプトはLLMモデルをロードし、重みと活性化にFP8量子化を適用します。
活性化は動的に量子化されます、つまり実際の実行時に行われます。
"""
import argparse
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, Llama4ForConditionalGeneration
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor import oneshot
from compressed_tensors.quantization import (
QuantizationScheme,
QuantizationArgs,
QuantizationType,
QuantizationStrategy,
)
def parse_arguments():
"""コマンドライン引数を解析します。"""
parser = argparse.ArgumentParser(description="因果言語モデルを量子化します")
parser.add_argument(
"--model_path",
type=str,
required=True,
help="事前学習済みモデルのパス",
)
parser.add_argument(
"--quant_path",
type=str,
required=True,
help="量子化モデルの出力パス",
)
return parser.parse_args()
def main():
"""モデルをロードして量子化するメイン関数。"""
args = parse_arguments()
print(f"{args.model_path}からモデルをロード中...")
model = Llama4ForConditionalGeneration.from_pretrained(
args.model_path,
device_map="auto",
torch_dtype="auto",
trust_remote_code=True,
)
quant_scheme = QuantizationScheme(
targets=["Linear"],
weights=QuantizationArgs(
num_bits=8,
type=QuantizationType.FLOAT,
strategy=QuantizationStrategy.CHANNEL,
symmetric=True,
observer="mse",
),
input_activations=QuantizationArgs(
num_bits=8,
type=QuantizationType.FLOAT,
strategy=QuantizationStrategy.TOKEN,
symmetric=True,
dynamic=True,
),
output_activations=None,
)
recipe = QuantizationModifier(
targets="Linear",
config_groups={"group_0": quant_scheme},
ignore=[
're:.*lm_head',
're:.*self_attn',
're:.*router',
're:.*vision_model',
're:.*multi_modal_projector',
]
)
print("量子化を適用中...")
oneshot(
model=model,
recipe=recipe,
trust_remote_code_model=True,
)
model.save_pretrained(args.quant_path, save_compressed=True, skip_compression_stats=True, disable_sparse_compression=True)
print(f"量子化モデルを{args.quant_path}に保存しました")
if __name__ == "__main__":
main()
評価
このモデルは、OpenLLMリーダーボードタスク(v1およびv2)、長文コンテキストRULER、マルチモーダルMMMU、マルチモーダルChartQAで評価されました。 すべての評価はlm-evaluation-harnessを通じて取得されました。
評価詳細
OpenLLM v1
lm_eval \
--model vllm \
--model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8,gpu_memory_utilization=0.7,enable_chunked_prefill=True,trust_remote_code=True \
--tasks openllm \
--batch_size auto
OpenLLM v2
lm_eval \
--model vllm \
--model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=16384,tensor_parallel_size=8,gpu_memory_utilization=0.5,enable_chunked_prefill=True,trust_remote_code=True \
--tasks leaderboard \
--apply_chat_template \
--fewshot_as_multiturn \
--batch_size auto
長文コンテキスト RULER
lm_eval \
--model vllm \
--model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=524288,tensor_parallel_size=8,gpu_memory_utilization=0.9,enable_chunked_prefill=True,trust_remote_code=True \
--tasks ruler \
--metadata='{"max_seq_lengths":[131072]}' \
--batch_size auto
マルチモーダル MMMU
lm_eval \
--model vllm-vlm \
--model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=1000000,tensor_parallel_size=8,gpu_memory_utilization=0.9,enable_chunked_prefill=True,trust_remote_code=True,max_images=10 \
--tasks mmmu_val \
--apply_chat_template \
--batch_size auto
マルチモーダル ChartQA
export VLLM_MM_INPUT_CACHE_GIB=8
lm_eval \
--model vllm-vlm \
--model_args pretrained="RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic",dtype=auto,add_bos_token=False,max_model_len=1000000,tensor_parallel_size=8,gpu_memory_utilization=0.9,enable_chunked_prefill=True,trust_remote_code=True,max_images=10 \
--tasks chartqa \
--apply_chat_template \
--batch_size auto
精度
回復率 (%) | meta-llama/Llama-4-Scout-17B-16E-Instruct | RedHatAI/Llama-4-Scout-17B-16E-Instruct-FP8-dynamic (このモデル) |
|
---|---|---|---|
ARC-Challenge 25ショット |
100.36 | 69.37 | 69.62 |
GSM8k 5ショット |
99.24 | 90.45 | 89.76 |
HellaSwag 10ショット |
99.94 | 85.23 | 85.18 |
MMLU 5ショット |
99.94 | 80.54 | 80.49 |
TruthfulQA 0ショット |
99.17 | 61.41 | 60.90 |
WinoGrande 5ショット |
98.88 | 77.90 | 77.03 |
OpenLLM v1 平均スコア |
99.59 | 77.48 | 77.16 |
IFEval 0ショット インストとプロンプト精度の平均 |
100.91 | 86.90 | 87.69 |
Big Bench Hard 3ショット |
99.82 | 65.13 | 65.01 |
Math Lvl 5 4ショット |
98.82 | 57.78 | 57.10 |
GPQA 0ショット |
100.53 | 31.88 | 32.05 |
MuSR 0ショット |
102.18 | 42.20 | 43.12 |
MMLU-Pro 5ショット |
99.82 | 55.70 | 55.60 |
OpenLLM v2 平均スコア |
100.28 | 56.60 | 56.76 |
RULER seqlen = 131072 niah_multikey_1 |
101.36 | 88.20 | 89.40 |
RULER seqlen = 131072 niah_multikey_2 |
100.72 | 83.60 | 84.20 |
RULER seqlen = 131072 niah_multikey_3 |
96.19 | 78.80 | 75.80 |
RULER seqlen = 131072 niah_multiquery |
100.79 | 95.40 | 96.15 |
RULER seqlen = 131072 niah_multivalue |
97.22 | 73.75 | 71.70 |
RULER seqlen = 131072 niah_single_1 |
100.00 | 100.00 | 100.00 |
RULER seqlen = 131072 niah_single_2 |
100.00 | 99.80 | 99.80 |
RULER seqlen = 131072 niah_single_3 |
100.00 | 99.80 | 99.80 |
RULER seqlen = 131072 ruler_cwe |
96.19 | 39.42 | 37.92 |
RULER seqlen = 131072 ruler_fwe |
98.86 | 92.93 | 91.87 |
RULER seqlen = 131072 ruler_qa_hotpot |
100.00 | 48.20 | 48.20 |
RULER seqlen = 131072 ruler_qa_squad |
98.81 | 53.57 | 52.93 |
RULER seqlen = 131072 ruler_qa_vt |
100.35 | 92.28 | 92.60 |
RULER seqlen = 131072 平均スコア |
99.49 | 80.44 | 80.03 |
MMMU 0ショット |
97.92 | 53.44 | 52.33 |
ChartQA 0ショット 完全一致 |
100.12 | 65.88 | 65.96 |
ChartQA 0ショット 緩和精度 |
99.69 | 88.92 | 88.64 |
マルチモーダル平均スコア | 99.38 | 69.41 | 68.98 |
Clip Vit Large Patch14
CLIPはOpenAIによって開発された視覚-言語モデルで、コントラスティブラーニングを通じて画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類をサポートします
画像生成テキスト
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIPはOpenAIが開発したマルチモーダルモデルで、画像とテキストの関係を理解し、ゼロショット画像分類タスクをサポートします。
画像生成テキスト
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIPはWebLiデータセットで事前学習された視覚言語モデルで、改良されたシグモイド損失関数を採用し、画像-テキストマッチングタスクを最適化しています。
画像生成テキスト
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIPはOpenAIが開発したマルチモーダルモデルで、コントラスティブラーニングにより画像とテキストを共有の埋め込み空間にマッピングし、ゼロショット画像分類能力を実現します。
画像生成テキスト
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIPは先進的な視覚-言語事前学習モデルで、画像キャプション生成タスクに優れており、条件付きおよび無条件のテキスト生成をサポートします。
画像生成テキスト
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成タスクに優れており、条件付きおよび無条件の画像キャプション生成をサポートします。
画像生成テキスト
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7BはOpen X-Embodimentデータセットでトレーニングされたオープンソースの視覚-言語-動作モデルで、言語命令とカメラ画像に基づいてロボットの動作を生成できます。
画像生成テキスト
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、画像とテキストのインタラクションをサポートします。
画像生成テキスト
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
これはViTとGPT2アーキテクチャに基づく画像記述生成モデルで、入力画像に対して自然言語の記述を生成することができます。
画像生成テキスト
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語モデルで、画像からテキストを生成するタスクに使用されます。
画像生成テキスト
Transformers 英語

B
Salesforce
867.78k
359
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98