モデル選定

FP8量子化推論

# FP8量子化推論

Qwen3-32B-FP8は通義千問シリーズ最新世代の32.8Bパラメータ大規模言語モデルで、思考モードと非思考モードの切り替えをサポートし、優れた推論能力、指示追従能力、エージェント能力を備えています。

大規模言語モデル

Qwen3-8B-FP8は通義千問シリーズの大規模言語モデルの最新バージョンで、FP8量子化バージョンを提供し、思考モードと非思考モードのシームレスな切り替えをサポートし、強力な推論能力と多言語サポートを備えています。

大規模言語モデル

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、Neural Magicによって最適化・公開されています。

画像生成テキスト

Transformers 英語

Hidream I1 Full FP8

170億パラメータのオープンソース画像生成基盤モデル、多様なスタイルをサポートし、生成速度が速く品質が高い

画像生成英語

Llama 3.1 8B Instruct FP8

Meta Llama 3.1 8B InstructモデルのFP8量子化バージョン、最適化されたtransformerアーキテクチャの自己回帰型言語モデルで、128Kのコンテキスト長をサポートします。

大規模言語モデル

Meta Llama 3.1 405B Instruct FP8 Dynamic

Meta-Llama-3.1-405B-InstructのFP8量子化バージョンで、多言語の商業および研究用途に適しており、特にアシスタントロボットシナリオ向けに最適化されています。

大規模言語モデル

Transformers 複数言語対応

Meta Llama 3 8B Instruct FP8 KV

Meta-Llama-3-8B-InstructモデルはFP8重みと活性化値のテンソルごとの量子化を施しており、vLLM >= 0.5.0での推論に適しています。このモデルチェックポイントにはFP8量子化KVキャッシュのテンソルごとのスケーリングパラメータも含まれています。

大規模言語モデル

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers 複数言語対応

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

対話システム

Transformers 英語

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase