DeepSeek-R1-FP4オープンソーステキスト生成モデル - 最適化されたアーキテクチャが効率的な文章創作をサポート

ホーム

Deepseek R1 FP4

nvidiaによって開発

DeepSeek R1モデルのFP4量子化バージョン、最適化されたTransformerアーキテクチャで効率的なテキスト生成を実現

大規模言語モデル

Safetensors

オープンソースライセンス:MIT #FP4量子化推論 #128K長文処理 #TensorRT-LLM最適化

ダウンロード数 61.51k

リリース時間 : 2/21/2025

モデル概要

DeepSeek R1ベースのFP4量子化モデル、TensorRT-LLM推論向けに最適化、128K長文コンテキスト生成をサポート

モデル特徴

FP4量子化技術

TensorRTモデルオプティマイザによる重みと活性値のFP4量子化を実現、ストレージ要件を1.6倍削減

長文コンテキストサポート

128Kトークンの超長文コンテキスト処理能力をサポート

Blackwellアーキテクチャ最適化

NVIDIA Blackwell GPUアーキテクチャ向けに最適化された推論性能

モデル能力

テキスト生成

長文理解

知識QA

使用事例

コンテンツ生成

記事続き作成

与えられた冒頭文から一貫性のある続きを自動生成

知識QA

事実質問応答

世界知識に関する様々な質問に回答

MMLUベンチマークで90.7%の精度を達成

🚀 NVIDIA DeepSeek R1 FP4モデル

NVIDIA DeepSeek R1 FP4モデルは、DeepSeek AIのDeepSeek R1モデルを量子化したものです。これは最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。詳細については、こちらをご確認ください。NVIDIA DeepSeek R1 FP4モデルは、TensorRT Model Optimizerを使用して量子化されています。このモデルは商用・非商用利用が可能です。

🚀 クイックスタート

このセクションでは、NVIDIA DeepSeek R1 FP4モデルの基本的な情報や使い方を紹介します。

✨ 主な機能

最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデル
最大128Kのコンテキスト長をサポート
Tensor(RT)-LLMランタイムエンジンをサポート
NVIDIA Blackwellマイクロアーキテクチャと互換性がある
Linuxオペレーティングシステムを推奨

📦 インストール

このモデルを使用するには、TensorRT-LLMをソースからビルドする必要があります。詳細な手順は、TensorRT-LLMのGitHubリポジトリを参照してください。

💻 使用例

基本的な使用法

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

高度な使用法

高度な使用法については、TensorRT-LLMのドキュメントを参照してください。

📚 ドキュメント

モデル概要

NVIDIA DeepSeek R1 FP4モデルは、DeepSeek AIのDeepSeek R1モデルを量子化したものです。これは最適化されたトランスフォーマーアーキテクチャを使用した自己回帰型言語モデルです。

モデルアーキテクチャ

属性	详情
モデルタイプ	Transformers
ネットワークアーキテクチャ	DeepSeek R1

入力

属性	详情
入力タイプ	テキスト
入力形式	文字列
入力パラメータ	1次元: シーケンス
入力に関連するその他のプロパティ	コンテキスト長最大128K

出力

属性	详情
出力タイプ	テキスト
出力形式	文字列
出力パラメータ	1次元: シーケンス
出力に関連するその他のプロパティ	なし

ソフトウェア統合

属性	详情
サポートされるランタイムエンジン	Tensor(RT)-LLM
サポートされるハードウェアマイクロアーキテクチャ互換性	NVIDIA Blackwell
推奨オペレーティングシステム	Linux

モデルバージョン

このモデルは、nvidia-modelopt v0.23.0 で量子化されています。

データセット

属性	详情
キャリブレーションデータセット	cnn_dailymail
データ収集方法	自動
ラベリング方法	不明
評価データセット	MMLU
データ収集方法	不明
ラベリング方法	なし

推論

属性	详情
エンジン	Tensor(RT)-LLM
テストハードウェア	B200

事後学習量子化

このモデルは、DeepSeek R1の重みと活性化関数をFP4データ型に量子化することで得られました。TensorRT-LLMでの推論に使用できます。トランスフォーマーブロック内の線形演算子の重みと活性化関数のみが量子化されています。この最適化により、パラメータごとのビット数が8から4に減少し、ディスクサイズとGPUメモリ要件が約1.6倍削減されます。

評価

精度ベンチマークの結果は、以下の表に示されています。

精度	MMLU	GSM8K	AIME2024	GPQA Diamond	MATH-500
FP8	90.8	96.3	80.0	69.7	95.4
FP4	90.7	96.1	80.0	69.2	94.2

倫理的な考慮事項

NVIDIAは、信頼できるAIは共同の責任であると考えており、幅広いAIアプリケーションの開発を可能にするためのポリシーと実践を確立しています。サービス利用規約に従ってダウンロードまたは使用する場合、開発者は内部のモデルチームと協力して、このモデルが関連する業界やユースケースの要件を満たし、予期しない製品の誤用に対応するようにする必要があります。

セキュリティ脆弱性またはNVIDIA AIに関する懸念事項は、こちらから報告してください。