git-base-textvqaオープンソース視覚質問応答モデル - テキストを含む画像の質問応答タスクの処理に非常に優れています

Git Base Textvqa

Hellraiser24によって開発

microsoft/git-base-textvqaを基にtextvqaデータセットでファインチューニングした視覚質問応答モデルで、テキストを含む画像の質問応答タスクに優れています

ダウンロード数 19

リリース時間 : 6/4/2023

モデル概要

このモデルはGITアーキテクチャをTextVQAデータセットでファインチューニングしたバージョンで、画像とその中のテキスト内容を同時に理解する必要がある視覚質問応答タスクに特化しています

テキスト画像統合理解

画像中の視覚情報とテキスト内容を同時に処理可能

エンドツーエンド学習

統一されたTransformerアーキテクチャを使用したエンドツーエンド学習

効率的なファインチューニング

TextVQAデータセットで良好なファインチューニング効果を発揮

画像中のテキスト認識

画像テキストに基づく質問応答

マルチモーダル理解

視覚-言語統合推論

インテリジェントアシスタント

シーンテキスト質問応答

画像中に出現するテキスト内容に関する質問に回答

TextVQA評価セットで損失値0.0472を達成

アクセシビリティ技術

画像テキスト説明

視覚障害者向けに画像中のテキスト内容を説明