# ビジュアル質問応答

Gemma 3 27b It Quantized.w4a16
これはgoogle/gemma-3-27b-itの量子化バージョンで、ビジュアル - テキスト入力とテキスト出力をサポートし、重み量子化と活性化量子化による最適化を行い、vLLMを使用して高効率推論が可能です。
画像生成テキスト Transformers
G
RedHatAI
302
1
Visionreasoner 7B
Apache-2.0
VisionReasoner-7Bは画像テキストからテキストへのモデルで、解耦アーキテクチャを採用し、推論モデルと分割モデルで構成され、ユーザーの意図を解釈してピクセルレベルのマスクを生成できます。
画像生成テキスト Transformers 英語
V
Ricky06662
2,398
1
Qwen2.5 VL 7B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-7B-InstructのFP8量子化バージョンで、vLLMを通じて効率的なビジュアル - テキスト推論をサポートします。
テキスト生成画像 Transformers 英語
Q
RedHatAI
25.18k
1
360VL 8B
Apache-2.0
360VLはLLama3言語モデルをベースに開発されたマルチモーダルモデルで、強力な画像理解とバイリンガル対話能力を備えています。
テキスト生成画像 Transformers 複数言語対応
3
qihoo360
22
13
Pix2struct Refexp Base
Apache-2.0
Pix2Structは、画像エンコーダー - テキストデコーダーモデルで、画像記述やビジュアル質問応答など、さまざまなビジュアル言語タスクに対して訓練されています。
画像生成テキスト Transformers 複数言語対応
P
gitlost-murali
20
0
Pix2struct Textcaps Large
Apache-2.0
Pix2Structは、画像からテキストへの変換を通じて多タスク学習を行うビジュアル言語理解モデルで、画像記述生成やビジュアル質問応答などのタスクをサポートします。
画像生成テキスト Transformers 複数言語対応
P
google
128
14
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase