# 視覚質問応答

Spaceom GGUF
Apache-2.0
SpaceOm-GGUFは、視覚質問応答タスクに特化したマルチモーダルモデルで、空間推論において優れた性能を発揮します。
テキスト生成画像 英語
S
mgonzs13
196
1
Paligemma2 3b Pt 896
PaliGemma 2はマルチモーダル視覚言語モデルで、画像とテキストの入力を組み合わせてテキスト出力を生成し、多言語をサポートし、さまざまな視覚言語タスクに適しています。
画像生成テキスト Transformers
P
google
2,536
22
Moondream1
16億パラメータのマルチモーダルモデル、SigLIPとPhi-1.5技術アーキテクチャを融合、画像理解と質問応答タスクをサポート
画像生成テキスト Transformers 英語
M
vikhyatk
70.48k
487
Med BLIP 2 QLoRA
BLIP2はOPT-2.7Bを基にした視覚言語モデルで、視覚質問応答タスクに特化しており、画像内容を理解し関連する質問に答えることができます。
テキスト生成画像
M
NouRed
16
1
Blip Vqa Capfilt Large
Bsd-3-clause
BLIPは統一された視覚言語事前学習フレームワークで、視覚質問応答と画像キャプション生成タスクに優れており、ガイド付きアノテーション戦略によりウェブデータを効果的に活用
テキスト生成画像 Transformers
B
Salesforce
46.61k
51
Vilt B32 Finetuned Vqa
Apache-2.0
ViLTは視覚と言語のトランスフォーマーモデルで、VQAv2データセットでファインチューニングされ、視覚質問応答タスクに使用されます。
テキスト生成画像 Transformers
V
dandelin
71.41k
408
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase