V

Vilt B32 Finetuned Vqa

dandelinによって開発
ViLTは視覚と言語のトランスフォーマーモデルで、VQAv2データセットでファインチューニングされ、視覚質問応答タスクに使用されます。
ダウンロード数 71.41k
リリース時間 : 3/2/2022

モデル概要

このモデルは視覚と言語の情報を結合し、画像内容に基づいて関連する質問に回答できます。主に視覚質問応答タスクに使用され、畳み込みや領域監督を必要としません。

モデル特徴

畳み込みや領域監督不要
モデルは生のピクセルとテキスト入力を直接処理し、畳み込みネットワークや領域監督に依存しません。
視覚言語の統合モデリング
視覚と言語の情報を同時に処理し、クロスモーダル理解を実現できます。

モデル能力

視覚質問応答
画像理解
クロスモーダル推論

使用事例

教育
画像内容の質問応答
学生が画像内容を理解し、関連する質問に回答するのを支援します。
支援技術
視覚支援
視覚障害者に画像内容を説明します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase