git-base-textvqa開源視覺語言模型 - 圖像轉文本描述，助力TextVQA任務！

首頁

Git Base Textvqa

由microsoft開發

GIT是一個基於Transformer的視覺語言模型，能夠將圖像轉換為文本描述，特別針對TextVQA任務進行了微調。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #圖像文本生成 #TextVQA微調 #視覺問答

下載量 1,182

發布時間 : 12/6/2022

模型概述

該模型通過CLIP圖像標記和文本標記進行條件化訓練，能夠執行圖像字幕生成、視覺問答等任務。基礎版本在1000萬圖像-文本對上訓練，並針對TextVQA任務進行了微調。

模型特點

雙向圖像注意力

模型對圖像塊標記具有完全訪問權限，使用雙向注意力機制

因果文本生成

在預測下一個文本標記時，僅能訪問先前的文本標記，使用因果注意力掩碼

多任務適應性

可用於圖像字幕生成、視覺問答和圖像分類等多種任務

模型能力

圖像字幕生成

視覺問答

圖像分類

文本生成

使用案例

視覺問答

TextVQA

回答基於圖像中文本內容的問題

針對TextVQA任務進行了專門微調

圖像理解

圖像字幕生成

為圖像生成描述性文本

🚀 GIT (GenerativeImage2Text)，基礎尺寸，在TextVQA上微調

GIT（GenerativeImage2Text的縮寫）模型，基礎尺寸版本，在TextVQA上進行了微調。該模型由Wang等人在論文GIT: A Generative Image-to-text Transformer for Vision and Language中提出，並首次在此倉庫發佈。

免責聲明：發佈GIT的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊撰寫。

🚀 快速開始

GIT模型可用於視覺問答等多種視覺與語言相關任務。若你想使用該模型，可參考文檔獲取代碼示例。

✨ 主要特性

多模態輸入：GIT是一個基於Transformer的解碼器，它以CLIP圖像令牌和文本令牌為條件進行訓練。
廣泛的任務適用性：可用於圖像和視頻字幕生成、圖像和視頻的視覺問答（VQA），甚至圖像分類。
靈活的注意力機制：在預測下一個文本令牌時，模型可以完全訪問圖像補丁令牌（使用雙向注意力掩碼），但僅能訪問之前的文本令牌（使用因果注意力掩碼）。

GIT架構

📚 詳細文檔

模型描述

GIT是一個Transformer解碼器，它以CLIP圖像令牌和文本令牌為條件。該模型在大量的（圖像，文本）對上使用“教師強制”進行訓練。模型的目標很簡單，即在給定圖像令牌和先前文本令牌的情況下，預測下一個文本令牌。在預測下一個文本令牌時，模型可以完全訪問圖像補丁令牌（即使用雙向注意力掩碼），但僅能訪問先前的文本令牌（即對文本令牌使用因果注意力掩碼）。

預期用途和限制

你可以使用原始模型進行視覺問答（VQA）。請查看模型中心，以查找針對你感興趣的任務進行微調的版本。

如何使用

有關代碼示例，請參考文檔。

訓練數據

根據論文：

我們收集了8億個圖像 - 文本對用於預訓練，其中包括COCO（Lin等人，2014）、Conceptual Captions (CC3M)（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome (VG)（Krishna等人，2016）、Conceptual Captions (CC12M)（Changpinyo等人，2021）、ALT200M（Hu等人，2021a），以及按照Hu等人（2021a）的類似收集程序收集的額外6億個數據。

然而，這是論文中稱為“GIT”的模型的訓練數據，該模型並未開源。此檢查點是“GIT - base”，它是GIT的一個較小變體，在1000萬個圖像 - 文本對上進行訓練。接下來，該模型在TextVQA上進行了微調。更多詳細信息請參閱論文GIT: A Generative Image-to-text Transformer for Vision and Language中的表11。

預處理

關於訓練期間預處理的詳細信息，請參考原始倉庫。在驗證期間，首先將每個圖像的較短邊調整大小，然後進行中心裁剪以達到固定大小的分辨率。接下來，使用ImageNet的均值和標準差對RGB通道上的幀進行歸一化。

評估結果

有關評估結果，請參考論文GIT: A Generative Image-to-text Transformer for Vision and Language。

📄 許可證

本模型採用MIT許可證。

屬性	詳情
模型類型	GIT（GenerativeImage2Text）基礎尺寸版本，在TextVQA上微調
訓練數據	該檢查點“GIT - base”在1000萬個圖像 - 文本對上訓練，之後在TextVQA上微調。原論文模型使用8億個圖像 - 文本對預訓練，包括COCO、Conceptual Captions等數據集