QWQ-32B-FP8オープンソースAIモデル - 無料でデプロイ可能、高速推論で高い正確性を維持

ホーム

QWQ 32B FP8

qingcheng-aiによって開発

QwQ-32B-FP8はQwQ-32BモデルのFP8量子化バージョンで、BF16バージョンとほぼ同じ精度を維持しながら、より高速な推論をサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #FP8量子化 #効率的な推論 #MMLUベンチマーク

ダウンロード数 144

リリース時間 : 3/21/2025

モデル概要

FP8量子化バージョンのQwQ-32Bモデルで、効率的な推論タスクに適しており、オリジナルのBF16バージョンと同等の性能を発揮します。

モデル特徴

効率的な推論

FP8量子化バージョンはBF16バージョンと同じ精度を維持しながら、より高速な推論をサポートします。

高性能

MMLUベンチマークテストで優れた成績を収め、オリジナルのBF16バージョンと同じスコアを達成しました。

軽量化

FP8量子化技術によりモデルサイズを削減し、リソースが限られた環境に適しています。

モデル能力

テキスト生成

効率的な推論

使用事例

自然言語処理

質問応答システム

高性能な質問応答システムの構築に使用可能で、複雑なクエリを処理できます。

MMLUベンチマークテストで61.2点を獲得し、優れた性能を示しました。

テキスト生成

コンテンツ作成、要約生成など、様々なテキスト生成タスクに適用可能です。

データ形式	MMLUスコア
BF16公式	61.2
FP8量子化	61.2
Q8_0 (INT8)	59.1
AWQ (INT4)	53.4

属性	詳情
ベースモデル	Qwen/QwQ-32B
ベースモデル関係	量子化済み
ライブラリ名	transformers
タグ	qwq、fp8

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

QWQ 32B FP8

モデル概要

モデル特徴

モデル能力

使用事例

🚀 QwQ-32B-FP8モデル

🚀 クイックスタート

✨ 主な機能

モデル概要

評価

📄 ライセンス

📚 ドキュメント

モデル情報

お問い合わせ