G

Git Base Textvqa

由Hellraiser24開發
基於microsoft/git-base-textvqa在textvqa數據集上微調的視覺問答模型,擅長處理包含文本的圖像問答任務
下載量 19
發布時間 : 6/4/2023

模型概述

該模型是GIT架構在TextVQA數據集上的微調版本,專門用於解決需要同時理解圖像和其中文本內容的視覺問答任務

模型特點

文本圖像聯合理解
能夠同時處理圖像中的視覺信息和文本內容
端到端訓練
採用統一的Transformer架構進行端到端訓練
高效微調
在TextVQA數據集上表現出良好的微調效果

模型能力

圖像中的文本識別
基於圖像文本的問答
多模態理解
視覺-語言聯合推理

使用案例

智能輔助
場景文字問答
回答關於圖像中出現的文字內容的問題
在TextVQA評估集上損失值為0.0472
無障礙技術
圖像文字描述
為視障人士描述圖像中的文字內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase