🚀 NVIDIA Llama 3.1 8B Instruct FP8モデル
NVIDIA Llama 3.1 8B Instruct FP8モデルは、MetaのLlama 3.1 8B Instructモデルを量子化したもので、最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。
🚀 クイックスタート
このモデルは商用および非商用利用が可能です。詳細については、こちらをご確認ください。
✨ 主な機能
- トランスフォーマーアーキテクチャを使用した高性能な言語モデル。
- 量子化によりディスクサイズとGPUメモリ要件を約50%削減。
- Tensor(RT)-LLMやvLLMなどのランタイムエンジンをサポート。
📦 インストール
TensorRT-LLMを使用したチェックポイントのデプロイ
チェックポイントの変換:
python examples/llama/convert_checkpoint.py --model_dir Llama-3.1-8B-Instruct-FP8 --output_dir /ckpt --use_fp8
エンジンのビルド:
trtllm-build --checkpoint_dir /ckpt --output_dir /engine
vLLMを使用したチェックポイントのデプロイ
- vLLMをこちらの手順に従ってインストールします。
LLM
エンジンを初期化する際に、quantization=modelopt
フラグを設定します。
💻 使用例
vLLMを使用したH100でのデプロイ例
from vllm import LLM, SamplingParams
model_id = "nvidia/Llama-3.1-8B-Instruct-FP8"
sampling_params = SamplingParams(temperature=0.8, top_p=0.9)
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
llm = LLM(model=model_id, quantization="modelopt")
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
このモデルは、vLLMバックエンドを介してOpenAI互換サーバーでデプロイすることができます。詳細な手順はこちらを参照してください。
📚 ドキュメント
モデルの概要
モデルアーキテクチャ
属性 |
詳情 |
アーキテクチャタイプ |
Transformers |
ネットワークアーキテクチャ |
Llama3.1 |
入力情報
属性 |
詳情 |
入力タイプ |
テキスト |
入力形式 |
文字列 |
入力パラメータ |
シーケンス |
その他の入力関連プロパティ |
コンテキスト長最大128K |
出力情報
属性 |
詳情 |
出力タイプ |
テキスト |
出力形式 |
文字列 |
出力パラメータ |
シーケンス |
その他の出力関連プロパティ |
該当なし |
ソフトウェア統合
サポートされるランタイムエンジン
サポートされるハードウェアマイクロアーキテクチャ互換性
- NVIDIA Blackwell
- NVIDIA Hopper
- NVIDIA Lovelace
推奨オペレーティングシステム
モデルバージョン
このモデルはnvidia-modelopt v0.27.0で量子化されています。
データセット
推論情報
- エンジン: Tensor(RT)-LLMまたはvLLM
- テストハードウェア: H100
事後学習量子化
このモデルは、Meta-Llama-3.1-8B-Instructの重みとアクティベーションをFP8データ型に量子化して得られたもので、TensorRT-LLMとvLLMでの推論に使用できます。トランスフォーマーブロック内の線形演算子の重みとアクティベーションのみが量子化されています。この最適化により、パラメータごとのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50%削減されます。H100では、約1.3倍の高速化が達成されています。
評価
精度 |
MMLU |
GSM8K (CoT) |
ARC Challenge |
IFEVAL |
TPS |
BF16 |
69.4 |
84.5 |
83.4 |
80.4 |
8,579.93 |
FP8 |
68.7 |
83.1 |
83.3 |
81.8 |
11,062.90 |
私たちは、8台のH100 GPUでtensorrt-llm v0.13を使用してベンチマークを行い、インフライトバッチングを有効にしたスループットでバッチサイズ1024を使用しました。FP8では約1.3倍の高速化を達成しました。
📄 ライセンス