D

Deepseek R1 Distill Qwen 32B Quantized.w8a8

neuralmagicによって開発
DeepSeek-R1-Distill-Qwen-32BのINT8量子化バージョンで、重み量子化と活性化値量子化によりVRAM使用量を削減し計算効率を向上。
ダウンロード数 2,324
リリース時間 : 2/5/2025

モデル概要

DeepSeek-R1-Distill-Qwen-32Bを基にした量子化モデルで、INT8量子化技術により重みと活性化値を最適化し、VRAM要件を大幅に削減し推論速度を向上。

モデル特徴

INT8量子化
重みと活性化値ともにINT8量子化を採用し、GPUのVRAM使用量を約50%削減、行列乗算のスループットを約2倍向上。
効率的な推論
vLLMバックエンドによる効率的なデプロイをサポートし、大規模言語モデルの推論性能を最適化。
高精度維持
量子化後も複数のベンチマークテストで元のモデルの99%以上の精度を維持。

モデル能力

テキスト生成
対話システム
コード生成
数学的推論

使用事例

対話システム
インテリジェントカスタマーサポート
効率的なインテリジェントカスタマーサポートシステム構築に使用され、ユーザークエリを処理。
マルチターン対話をサポートし、応答速度が速い。
コード生成
プログラミング支援
開発者がコードスニペットを生成したりプログラミング問題を解決するのを支援。
HumanEvalベンチマークでpass@1が85.8%を達成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase