D

Deepseek R1 Distill Qwen 32B Quantized.w8a8

RedHatAIによって開発
DeepSeek-R1-Distill-Qwen-32Bの量子化バージョン。INT8の重み量子化と活性化量子化により、メモリ要件を削減し、計算効率を向上させます。
ダウンロード数 3,572
リリース時間 : 2/5/2025

モデル概要

Qwen2ForCausalLMアーキテクチャに基づく量子化大規模言語モデルで、テキスト生成タスクに適しています。

モデル特徴

効率的な量子化
INT8の重み量子化と活性化量子化を採用し、GPUメモリ要件とディスク空間の占有を大幅に削減します。
高性能推論
vLLMバックエンドを通じて効率的なデプロイをサポートし、単一ストリームデプロイで1.8倍の高速化を実現します。
高精度維持
量子化後のモデルは、複数のベンチマークテストで元のモデルの99%以上の精度を維持します。

モデル能力

テキスト生成
多輪対話
コード生成
文書要約
質問応答システム

使用事例

対話システム
多輪対話
複雑な多輪対話シナリオをサポートします。
512/256トークン構成で325 QPS(A6000単一GPU)を達成します。
コード関連
コード補完
プログラミング言語のコード補完をサポートします。
HumanEval pass@1で85.8%の精度を達成します。
情報検索
RAGアプリケーション
検索強化生成シナリオに適しています。
1024/128トークン構成で622 QPS(A6000単一GPU)を達成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase