git-base-textvqa開源視覺問答模型 - 處理包含文本圖像問答任務超在行

Git Base Textvqa

Developed by Hellraiser24

基於microsoft/git-base-textvqa在textvqa數據集上微調的視覺問答模型，擅長處理包含文本的圖像問答任務

Downloads 19

Release Time : 6/4/2023

Model Overview

該模型是GIT架構在TextVQA數據集上的微調版本，專門用於解決需要同時理解圖像和其中文本內容的視覺問答任務

文本圖像聯合理解

能夠同時處理圖像中的視覺信息和文本內容

端到端訓練

採用統一的Transformer架構進行端到端訓練

高效微調

在TextVQA數據集上表現出良好的微調效果

圖像中的文本識別

基於圖像文本的問答

多模態理解

視覺-語言聯合推理

智能輔助

場景文字問答

回答關於圖像中出現的文字內容的問題

在TextVQA評估集上損失值為0.0472

無障礙技術

圖像文字描述

為視障人士描述圖像中的文字內容