🚀 NVIDIA DeepSeek R1 FP4モデル
NVIDIA DeepSeek R1 FP4モデルは、DeepSeek AIのDeepSeek R1モデルを量子化したものです。これは最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。詳細については、こちらをご確認ください。NVIDIA DeepSeek R1 FP4モデルは、TensorRT Model Optimizerを使用して量子化されています。このモデルは商用・非商用利用が可能です。
🚀 クイックスタート
このセクションでは、NVIDIA DeepSeek R1 FP4モデルの基本的な情報や使い方を紹介します。
✨ 主な機能
- 最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデル
- 最大128Kのコンテキスト長をサポート
- Tensor(RT)-LLMランタイムエンジンをサポート
- NVIDIA Blackwellマイクロアーキテクチャと互換性がある
- Linuxオペレーティングシステムを推奨
📦 インストール
このモデルを使用するには、TensorRT-LLMをソースからビルドする必要があります。詳細な手順は、TensorRT-LLMのGitHubリポジトリを参照してください。
💻 使用例
基本的な使用法
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
if __name__ == '__main__':
main()
高度な使用法
高度な使用法については、TensorRT-LLMのドキュメントを参照してください。
📚 ドキュメント
モデル概要
NVIDIA DeepSeek R1 FP4モデルは、DeepSeek AIのDeepSeek R1モデルを量子化したものです。これは最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。
モデルアーキテクチャ
属性 |
详情 |
モデルタイプ |
Transformers |
ネットワークアーキテクチャ |
DeepSeek R1 |
入力
属性 |
详情 |
入力タイプ |
テキスト |
入力形式 |
文字列 |
入力パラメータ |
1次元: シーケンス |
入力に関連するその他のプロパティ |
コンテキスト長最大128K |
出力
属性 |
详情 |
出力タイプ |
テキスト |
出力形式 |
文字列 |
出力パラメータ |
1次元: シーケンス |
出力に関連するその他のプロパティ |
なし |
ソフトウェア統合
属性 |
详情 |
サポートされるランタイムエンジン |
Tensor(RT)-LLM |
サポートされるハードウェアマイクロアーキテクチャ互換性 |
NVIDIA Blackwell |
推奨オペレーティングシステム |
Linux |
モデルバージョン
このモデルは、nvidia-modelopt v0.23.0 で量子化されています。
データセット
属性 |
详情 |
キャリブレーションデータセット |
cnn_dailymail |
データ収集方法 |
自動 |
ラベリング方法 |
不明 |
評価データセット |
MMLU |
データ収集方法 |
不明 |
ラベリング方法 |
なし |
推論
属性 |
详情 |
エンジン |
Tensor(RT)-LLM |
テストハードウェア |
B200 |
事後学習量子化
このモデルは、DeepSeek R1の重みと活性化関数をFP4データ型に量子化することで得られました。TensorRT-LLMでの推論に使用できます。トランスフォーマーブロック内の線形演算子の重みと活性化関数のみが量子化されています。この最適化により、パラメータごとのビット数が8から4に減少し、ディスクサイズとGPUメモリ要件が約1.6倍削減されます。
評価
精度ベンチマークの結果は、以下の表に示されています。
精度 |
MMLU |
GSM8K |
AIME2024 |
GPQA Diamond |
MATH-500 |
FP8 |
90.8 |
96.3 |
80.0 |
69.7 |
95.4 |
FP4 |
90.7 |
96.1 |
80.0 |
69.2 |
94.2 |
倫理的な考慮事項
NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応するようにする必要があります。
セキュリティ脆弱性またはNVIDIA AIに関する懸念事項は、こちらから報告してください。
📄 ライセンス
このモデルは、MITライセンスの下で提供されています。