🚀 NVIDIA DeepSeek-R1-0528-FP4モデル
NVIDIA DeepSeek-R1-0528-FP4モデルは、DeepSeek AIのDeepSeek R1 0528モデルを量子化したものです。このモデルは、最適化されたTransformerアーキテクチャを使用した自己回帰型言語モデルです。詳細については、こちらをご覧ください。NVIDIA DeepSeek R1 FP4モデルは、TensorRT Model Optimizerを使用して量子化されています。このモデルは、商用および非商用利用が可能です。
🚀 クイックスタート
このモデルは、テキスト生成のためのもので、特定の入力に対して適切なテキスト出力を生成します。以下に、モデルの基本的な情報や使用方法を説明します。
✨ 主な機能
- テキスト生成機能を提供し、様々なプロンプトに対して応答を生成します。
- 量子化により、ディスクサイズとGPUメモリ要件を削減し、推論速度を向上させます。
📦 インストール
このモデルを使用するには、TensorRT-LLMをソースからビルドする必要があります。以下のコード例では、モデルを使用するための基本的なセットアップを示しています。
💻 使用例
基本的な使用法
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-0528-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
if __name__ == '__main__':
main()
高度な使用法
このモデルを評価する際には、以下の表に示す精度ベンチマーク結果を参考にすることができます。
精度 |
MMLU Pro |
GPQA Diamond |
LiveCodeBench |
SCICODE |
MATH - 500 |
AIME 2024 |
FP8 (AA Ref) |
85 |
81 |
77 |
40 |
98 |
89 |
FP4 |
84.2 |
80.0 |
76.3 |
40.1 |
98.1 |
91.3 |
📚 ドキュメント
モデルアーキテクチャ
属性 |
詳情 |
アーキテクチャタイプ |
Transformers |
ネットワークアーキテクチャ |
DeepSeek R1 |
入力
- 入力タイプ:テキスト
- 入力形式:文字列
- 入力パラメータ:1次元(一次元)のシーケンス
- 入力に関連するその他のプロパティ:DeepSeekは、DeepSeek - R1シリーズのモデルを利用する際(ベンチマークを含む)、期待されるパフォーマンスを達成するために、以下の設定に従うことを推奨しています。
- 温度を0.5 - 0.7の範囲内(推奨値は0.6)に設定して、無限の繰り返しや不整合な出力を防ぎます。
- システムプロンプトを追加しないでください。すべての指示はユーザープロンプト内に含める必要があります。
- 数学の問題については、プロンプトに「Please reason step by step, and put your final answer within \boxed{}」のような指示を含めることをお勧めします。
- モデルのパフォーマンスを評価する際には、複数回のテストを実施し、結果を平均することをお勧めします。
出力
- 出力タイプ:テキスト
- 出力形式:文字列
- 出力パラメータ:1次元(一次元)のシーケンス
ソフトウェア統合
- サポートされるランタイムエンジン:TensorRT - LLM
- サポートされるハードウェアマイクロアーキテクチャ互換性:NVIDIA Blackwell
- 推奨オペレーティングシステム:Linux
モデルバージョン
このモデルは、nvidia - modelopt v0.31.0で量子化されています。
トレーニングデータセット
- データ収集方法:ハイブリッド(人間と自動)
- ラベリング方法:ハイブリッド(人間と自動)
テストデータセット
- データ収集方法:ハイブリッド(人間と自動)
- ラベリング方法:ハイブリッド(人間と自動)
評価データセット
- データ収集方法:ハイブリッド(人間と自動)
- ラベリング方法:ハイブリッド(人間と自動)
キャリブレーションデータセット
推論
- エンジン:TensorRT - LLM
- テストハードウェア:B200
学習後量子化
このモデルは、DeepSeek R1の重みと活性化関数をFP4データ型に量子化することで得られ、TensorRT - LLMでの推論に使用できます。Transformerブロック内の線形演算子の重みと活性化関数のみが量子化されています。この最適化により、パラメータごとのビット数が8から4に減少し、ディスクサイズとGPUメモリ要件が約1.6倍削減されます。
🔧 技術詳細
このモデルは、Transformerアーキテクチャをベースにしており、量子化技術を用いてメモリ使用量を削減し、推論速度を向上させています。具体的には、重みと活性化関数をFP4データ型に量子化することで、パフォーマンスを維持しながらリソース使用量を削減しています。
📄 ライセンス
このモデルは、MITライセンスの下で提供されています。
⚠️ 重要提示
ベースモデルは、元々インターネットからクロールされた、有毒な言語や社会的バイアスを含むデータで学習されています。したがって、このモデルはそれらのバイアスを増幅し、特に有毒なプロンプトが与えられた場合に有毒な応答を返す可能性があります。また、モデルは不正確な回答を生成したり、重要な情報を省略したり、関連性のないまたは冗長なテキストを含んだりすることがあり、社会的に受け入れられないまたは望ましくないテキストを生成する可能性があります。
💡 使用建议
NVIDIAは、信頼できるAIは共有の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってモデルをダウンロードまたは使用する場合、開発者は自社のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応することを確認する必要があります。セキュリティバグやNVIDIA AIに関する懸念事項は、こちらから報告してください。