Llama 3.1 8B Instruct FP8_カテゴリ| AIbaseモデルライブラリ

ホーム

Llama 3.1 8B Instruct FP8

nvidiaによって開発

Meta Llama 3.1 8B InstructモデルのFP8量子化バージョン、最適化されたtransformerアーキテクチャの自己回帰型言語モデルで、128Kのコンテキスト長をサポートします。

大規模言語モデル

Transformers

#FP8量子化推論 #128K長文コンテキスト #TensorRT最適化

ダウンロード数 3,700

リリース時間 : 8/29/2024

モデル概要

このモデルはMeta Llama 3.1 8B InstructのFP8量子化バージョンで、TensorRT-LLMおよびvLLM推論向けに最適化されており、テキスト生成タスクに適しています。

モデル特徴

FP8量子化

FP8量子化技術により、モデルのディスクサイズとGPUメモリ要件を約50%削減し、H100上で1.3倍の高速化を実現します。

長文コンテキストサポート

128Kのコンテキスト長をサポートし、長文タスクの処理に適しています。

高性能推論

TensorRT-LLMとvLLM向けに最適化されており、効率的な推論性能を提供します。

モデル能力

テキスト生成

長文処理

指示追従

使用事例

コンテンツ生成

記事続き作成

与えられた冒頭から一貫性のある記事内容を生成します

対話システム

インテリジェントな対話アシスタントを構築します

教育

問題解決支援

数学、科学などの学問的問題の解答を支援します

GSM8Kデータセットで83.1%の精度を達成

🚀 NVIDIA Llama 3.1 8B Instruct FP8モデル

NVIDIA Llama 3.1 8B Instruct FP8モデルは、MetaのLlama 3.1 8B Instructモデルを量子化したもので、最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。

🚀 クイックスタート

このモデルは商用および非商用利用が可能です。詳細については、こちらをご確認ください。

✨ 主な機能

トランスフォーマーアーキテクチャを使用した高性能な言語モデル。
量子化によりディスクサイズとGPUメモリ要件を約50％削減。
Tensor(RT)-LLMやvLLMなどのランタイムエンジンをサポート。

📦 インストール

TensorRT-LLMを使用したチェックポイントのデプロイ

チェックポイントの変換:

python examples/llama/convert_checkpoint.py --model_dir Llama-3.1-8B-Instruct-FP8 --output_dir /ckpt --use_fp8

エンジンのビルド:

trtllm-build --checkpoint_dir /ckpt --output_dir /engine

vLLMを使用したチェックポイントのデプロイ

vLLMをこちらの手順に従ってインストールします。
LLMエンジンを初期化する際に、quantization=modeloptフラグを設定します。

💻 使用例

vLLMを使用したH100でのデプロイ例

from vllm import LLM, SamplingParams

model_id = "nvidia/Llama-3.1-8B-Instruct-FP8"
sampling_params = SamplingParams(temperature=0.8, top_p=0.9)

prompts = [
    "Hello, my name is",
    "The president of the United States is",
    "The capital of France is",
    "The future of AI is",
]

llm = LLM(model=model_id, quantization="modelopt")
outputs = llm.generate(prompts, sampling_params)

# Print the outputs.
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

このモデルは、vLLMバックエンドを介してOpenAI互換サーバーでデプロイすることができます。詳細な手順はこちらを参照してください。

📚 ドキュメント

モデルの概要

ベースモデル: meta-llama/Llama-3.1-8B-Instruct
ライセンス: nvidia-open-model-license、llama3.1
パイプラインタグ: text-generation
ライブラリ名: transformers

モデルアーキテクチャ

属性	詳情
アーキテクチャタイプ	Transformers
ネットワークアーキテクチャ	Llama3.1

入力情報

属性	詳情
入力タイプ	テキスト
入力形式	文字列
入力パラメータ	シーケンス
その他の入力関連プロパティ	コンテキスト長最大128K

出力情報

属性	詳情
出力タイプ	テキスト
出力形式	文字列
出力パラメータ	シーケンス
その他の出力関連プロパティ	該当なし

ソフトウェア統合

サポートされるランタイムエンジン

Tensor(RT)-LLM
vLLM

サポートされるハードウェアマイクロアーキテクチャ互換性

NVIDIA Blackwell
NVIDIA Hopper
NVIDIA Lovelace

推奨オペレーティングシステム

Linux

モデルバージョン

このモデルはnvidia-modelopt v0.27.0で量子化されています。

データセット

キャリブレーションデータセット: cnn_dailymail
評価データセット: MMLU

推論情報

エンジン: Tensor(RT)-LLMまたはvLLM
テストハードウェア: H100

事後学習量子化

このモデルは、Meta-Llama-3.1-8B-Instructの重みとアクティベーションをFP8データ型に量子化して得られたもので、TensorRT-LLMとvLLMでの推論に使用できます。トランスフォーマーブロック内の線形演算子の重みとアクティベーションのみが量子化されています。この最適化により、パラメータごとのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50％削減されます。H100では、約1.3倍の高速化が達成されています。