git-large-textcaps開源模型 - 免費助力圖像描述生成與視覺問答任務

首頁

Git Large Textcaps

由microsoft開發

GIT是一種基於Transformer的雙條件解碼器模型，用於圖像描述生成和視覺問答等任務。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #圖像描述生成 #文本增強視覺 #多模態Transformer

下載量 1,749

發布時間 : 1/2/2023

模型概述

GIT模型通過CLIP圖像標記和文本標記的雙條件Transformer解碼器，能夠執行圖像描述生成、視覺問答和圖像分類等任務。

模型特點

雙條件Transformer解碼器

結合CLIP圖像標記和文本標記，實現高效的圖像到文本轉換。

多任務支持

能夠執行圖像描述生成、視覺問答和圖像分類等多種任務。

大規模預訓練

基於2000萬圖像-文本對進行訓練，並在TextCaps上微調。

模型能力

圖像描述生成

視覺問答

圖像分類

使用案例

圖像理解

圖像描述生成

為輸入的圖像生成詳細的文本描述。

視覺問答

回答關於圖像內容的自然語言問題。

圖像分類

文本類別生成

基於圖像生成對應的文本類別。

🚀 GIT（GenerativeImage2Text），大尺寸，在TextCaps上微調

GIT（GenerativeImage2Text的縮寫）模型，大尺寸版本，在TextCaps上進行了微調。該模型由Wang等人在論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，並首次在此倉庫中發佈。

聲明：發佈GIT的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊撰寫。

✨ 主要特性

多任務適用性：可用於圖像和視頻字幕生成、圖像和視頻的視覺問答（VQA），甚至圖像分類。
獨特架構設計：基於Transformer解碼器，結合CLIP圖像令牌和文本令牌進行訓練。

📦 安裝指南

文檔中未提及具體安裝步驟，可參考模型文檔獲取相關信息。

💻 使用示例

對於代碼示例，請參考文檔。

📚 詳細文檔

模型描述

GIT是一個基於CLIP圖像令牌和文本令牌的Transformer解碼器。該模型使用“教師強制”方法在大量（圖像，文本）對上進行訓練。

模型的目標很簡單，即在給定圖像令牌和先前文本令牌的情況下，預測下一個文本令牌。

在預測下一個文本令牌時，模型可以完全訪問（即使用雙向注意力掩碼）圖像補丁令牌，但只能訪問先前的文本令牌（即對文本令牌使用因果注意力掩碼）。

GIT架構

這使得該模型可用於以下任務：

圖像和視頻字幕生成
圖像和視頻的視覺問答（VQA）
甚至圖像分類（只需讓模型基於圖像生成文本形式的類別）

預期用途和限制

你可以使用原始模型進行圖像字幕生成。請查看模型中心以查找針對你感興趣的任務進行微調的版本。

訓練數據

根據論文：

我們收集了8億個圖像 - 文本對用於預訓練，其中包括COCO（Lin等人，2014）、Conceptual Captions（CC3M）（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome（VG）（Krishna等人，2016）、Conceptual Captions（CC12M）（Changpinyo等人，2021）、ALT200M（Hu等人，2021a），以及按照Hu等人（2021a）的類似收集程序收集的額外6億個數據。

不過，這是論文中稱為“GIT”的模型，該模型並未開源。

此檢查點是“GIT-large”，它是GIT的一個較小變體，在2000萬個圖像 - 文本對上進行訓練。

接下來，該模型在TextCaps上進行了微調。

更多詳細信息請參閱論文中的表11。