D

Deepseek R1 Distill Llama 70B FP8 Dynamic

RedHatAIによって開発
DeepSeek-R1-Distill-Llama-70BのFP8量子化バージョン。重みと活性化のビット数を減らすことで推論性能を最適化します。
ダウンロード数 45.77k
リリース時間 : 2/1/2025

モデル概要

これはDeepSeek-R1-Distill-Llama-70Bの量子化バージョンで、重みと活性化をFP8データ型に量子化することで、ディスク容量とGPUメモリの要件を削減し、同時に推論性能を大幅に向上させます。

モデル特徴

FP8量子化
重みと活性化の両方をFP8データ型で量子化し、ディスク容量とGPUメモリの要件を50%削減します。
効率的な推論
単一流デプロイで最大1.4倍の高速化、多流非同期デプロイで最大3.0倍の高速化が実現されます。
vLLM互換
vLLMバックエンドを使用した効率的なデプロイをサポートし、OpenAI互換のサービスインターフェースを提供します。

モデル能力

テキスト生成
命令追従
多輪対話
コード補完
ドキュメント生成
RAGアプリケーション

使用事例

対話システム
多輪対話
複雑な多輪対話シナリオをサポートします。
512/256トークン設定で、A100x4ハードウェア上で8.90 QPSに達します。
コード生成
コード補完
プログラミング言語のコード補完機能をサポートします。
HumanEvalテストでpass@1が81.00%に達します。
情報検索
RAGアプリケーション
検索強化生成に基づく質問応答システムをサポートします。
1024/128トークン設定で、A100x4ハードウェア上で7.42 QPSに達します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase