Q

Qwq 32B FP8 Dynamic

nm-testingによって開発
QwQ-32BのFP8量子化バージョン、動的量子化技術により50%のストレージとメモリ要件を削減、99.75%の元モデル精度を維持
ダウンロード数 3,895
リリース時間 : 3/5/2025

モデル概要

Qwen/QwQ-32BベースのFP8量子化バージョン、効率的な推論展開に適し、特にvLLMバックエンドサポートを最適化

モデル特徴

FP8動的量子化
重みと活性値共にFP8量子化を採用、ストレージとメモリ要件を約50%削減
高精度維持
総合テストで99.75%の元モデル精度を維持、一部テスト指標では向上も確認
vLLM最適化
特にvLLM推論フレームワーク向けに最適化、効率的な並列推論をサポート
量子化スキーム最適化
重みはチャネル毎に対称量子化、活性値はトークン毎に対称量子化スキームを採用

モデル能力

中国語テキスト生成
マルチターン対話
複雑な推論
知識質問応答

使用事例

インテリジェント対話
個性化ロールプレイ
特定のキャラクタースタイルで会話をシミュレート、例えば海賊口調
意味的精度を維持しつつスタイリッシュな表現を実現
教育支援
数学問題解答
高校以上の難易度の数学問題を解決
MATH-500テストで97.44%の精度を達成
専門コンサルティング
専門分野質問応答
GPQAダイヤモンド級の専門質問に回答
63.21%の精度を維持
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase