D

Deepseek R1 0528 AWQ

cognitivecomputationsによって開発
DeepSeek R1 0528のAWQ量子化モデルで、vLLMを使用して8基の80GB GPUでフルコンテキスト長で実行可能です。
ダウンロード数 145
リリース時間 : 6/1/2025

モデル概要

これはAWQ量子化されたDeepSeek-R1-0528モデルのバージョンで、float16使用時のオーバーフロー問題を修正し、vLLMフレームワーク下での実行効率を最適化しました。

モデル特徴

AWQ量子化最適化
モデルコードの一部を修正し、float16使用時のオーバーフロー問題を解決し、モデルの実行効率を向上させました。
フルコンテキスト長サポート
vLLMを使用して8基の80GB GPUでフルコンテキスト長でこのモデルを実行できます。
高性能推論
A100 GPU向けにFlashMLA実装を最適化し、長文脈推論時にTritonよりも優れた性能を発揮します。

モデル能力

テキスト生成
長文処理
多言語サポート

使用事例

テキスト生成
長文生成
最大63K入力と2K出力のテキスト生成タスクをサポートします。
8x H100/H200構成で54.3 TPSを達成
バッチ処理
32リクエストのバッチ処理をサポートし、各リクエストは4K入力と256出力です。
8x H100/H200構成で30.1 TPSを達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase