# FP8量子化推論

Qwen3 32B FP8
Apache-2.0
Qwen3-32B-FP8は通義千問シリーズ最新世代の32.8Bパラメータ大規模言語モデルで、思考モードと非思考モードの切り替えをサポートし、優れた推論能力、指示追従能力、エージェント能力を備えています。
大規模言語モデル Transformers
Q
Qwen
29.26k
47
Qwen3 8B FP8
Apache-2.0
Qwen3-8B-FP8は通義千問シリーズの大規模言語モデルの最新バージョンで、FP8量子化バージョンを提供し、思考モードと非思考モードのシームレスな切り替えをサポートし、強力な推論能力と多言語サポートを備えています。
大規模言語モデル Transformers
Q
Qwen
22.18k
27
Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、Neural Magicによって最適化・公開されています。
画像生成テキスト Transformers 英語
Q
parasail-ai
78
1
Hidream I1 Full FP8
MIT
170億パラメータのオープンソース画像生成基盤モデル、多様なスタイルをサポートし、生成速度が速く品質が高い
画像生成 英語
H
shuttleai
152
9
Llama 3.1 8B Instruct FP8
Meta Llama 3.1 8B InstructモデルのFP8量子化バージョン、最適化されたtransformerアーキテクチャの自己回帰型言語モデルで、128Kのコンテキスト長をサポートします。
大規模言語モデル Transformers
L
nvidia
3,700
21
Meta Llama 3.1 405B Instruct FP8 Dynamic
Meta-Llama-3.1-405B-InstructのFP8量子化バージョンで、多言語の商業および研究用途に適しており、特にアシスタントロボットシナリオ向けに最適化されています。
大規模言語モデル Transformers 複数言語対応
M
RedHatAI
97
15
Meta Llama 3 8B Instruct FP8 KV
Meta-Llama-3-8B-InstructモデルはFP8重みと活性化値のテンソルごとの量子化を施しており、vLLM >= 0.5.0での推論に適しています。このモデルチェックポイントにはFP8量子化KVキャッシュのテンソルごとのスケーリングパラメータも含まれています。
大規模言語モデル Transformers
M
RedHatAI
3,153
8
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase