G

Git Base Textvqa

由microsoft開發
GIT是一個基於Transformer的視覺語言模型,能夠將圖像轉換為文本描述,特別針對TextVQA任務進行了微調。
下載量 1,182
發布時間 : 12/6/2022

模型概述

該模型通過CLIP圖像標記和文本標記進行條件化訓練,能夠執行圖像字幕生成、視覺問答等任務。基礎版本在1000萬圖像-文本對上訓練,並針對TextVQA任務進行了微調。

模型特點

雙向圖像注意力
模型對圖像塊標記具有完全訪問權限,使用雙向注意力機制
因果文本生成
在預測下一個文本標記時,僅能訪問先前的文本標記,使用因果注意力掩碼
多任務適應性
可用於圖像字幕生成、視覺問答和圖像分類等多種任務

模型能力

圖像字幕生成
視覺問答
圖像分類
文本生成

使用案例

視覺問答
TextVQA
回答基於圖像中文本內容的問題
針對TextVQA任務進行了專門微調
圖像理解
圖像字幕生成
為圖像生成描述性文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase