Q

Qwen3 32B FP8 Dynamic

RedHatAIによって開発
Qwen3-32Bを基にFP8動的量子化を施した効率的な言語モデルで、メモリ要件を大幅に削減し計算効率を向上
ダウンロード数 917
リリース時間 : 5/2/2025

モデル概要

このモデルはQwen3-32Bの活性化と重みに対してFP8データ型量子化を適用し、GPUメモリ要件を約50%削減、行列乗算の計算スループットを約2倍向上させました。推論、関数呼び出し、多言語命令追従などのタスクに適しています。

モデル特徴

FP8量子化
重みと活性化にFP8データ型量子化を適用し、メモリ要件を大幅に削減し計算効率を向上
効率的なデプロイ
vLLMバックエンドを介した効率的なデプロイをサポートし、推論性能を最適化
高精度維持
量子化後もモデルは複数のベンチマークテストで元のモデルの99%以上の精度を維持

モデル能力

テキスト生成
関数呼び出し
多言語命令追従
翻訳
推論タスク処理

使用事例

汎用AIアシスタント
知識質問応答
様々な知識問題に回答
MMLU(5-shot)テストで80.89点を達成
数学的推論
数学問題と論理的推論を解決
GSM-8Kテストで88.32点を達成
専門分野アプリケーション
医学質問応答
医学関連の質問に回答
AIME 2024テストで79.37点を達成
コード生成
説明に基づいてコードを生成
コード生成タスクで良好な性能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase