git-base-textcaps開源圖像轉文本模型 - 免費將視覺內容轉換成描述性文本

首頁

Git Base Textcaps

由microsoft開發

GIT是一個基於Transformer的生成式圖像到文本模型，能夠將視覺內容轉換為描述性文本。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #圖像描述生成 #視覺問答 #多模態Transformer

下載量 482

發布時間 : 12/6/2022

模型概述

GIT模型通過結合CLIP圖像標記和文本標記的Transformer解碼器，實現圖像描述生成、視覺問答等任務。

模型特點

雙向圖像注意力

模型對圖像塊標記使用雙向注意力機制，充分理解圖像內容

因果文本生成

在生成文本時使用因果注意力掩碼，確保自迴歸生成質量

多任務適應性

可用於圖像描述生成、視覺問答和圖像分類等多種任務

模型能力

圖像描述生成

視覺問答(VQA)

圖像分類(通過文本生成)

使用案例

內容生成

自動圖像標註

為圖像生成描述性文本

生成符合圖像內容的自然語言描述

輔助技術

視覺輔助

為視障人士描述圖像內容

🚀 GIT (GenerativeImage2Text) 基礎尺寸模型，在TextCaps上微調

GIT（GenerativeImage2Text的縮寫）是基礎尺寸版本的模型，在TextCaps上進行了微調。該模型由Wang等人在論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，並首次在此倉庫中發佈。

聲明：發佈GIT的團隊並未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

🚀 快速開始

GIT模型可用於圖像和視頻字幕生成、視覺問答以及圖像分類等任務。你可以使用原始模型進行圖像字幕生成，也可以在模型中心中查找針對特定任務微調後的版本。

✨ 主要特性

多模態輸入：GIT是一個基於CLIP圖像令牌和文本令牌的Transformer解碼器，能夠處理圖像和文本信息。
廣泛的應用場景：可用於圖像和視頻字幕生成、視覺問答、圖像分類等任務。
靈活的預測機制：模型的目標是根據圖像令牌和之前的文本令牌預測下一個文本令牌，在預測時對圖像補丁令牌具有全訪問權限，對文本令牌則使用因果注意力掩碼。

📚 詳細文檔

模型描述

GIT是一個基於CLIP圖像令牌和文本令牌的Transformer解碼器。該模型使用“教師強制”方法在大量的（圖像，文本）對上進行訓練。模型的目標是根據圖像令牌和之前的文本令牌預測下一個文本令牌。在預測時，模型對圖像補丁令牌具有全訪問權限（即使用雙向注意力掩碼），但僅能訪問之前的文本令牌（即對文本令牌使用因果注意力掩碼）。

GIT架構

這種機制使得模型可用於以下任務：

圖像和視頻字幕生成
圖像和視頻的視覺問答（VQA）
圖像分類（通過簡單地將模型基於圖像進行條件設置並要求其以文本形式生成類別）

預期用途和限制

你可以使用原始模型進行圖像字幕生成。在模型中心中查找針對你感興趣的任務微調後的版本。

使用方法

有關代碼示例，請參考文檔。

訓練數據

根據論文所述：

我們收集了8億個圖像 - 文本對用於預訓練，其中包括COCO（Lin等人，2014）、Conceptual Captions (CC3M)（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome (VG)（Krishna等人，2016）、Conceptual Captions (CC12M)（Changpinyo等人，2021）、ALT200M（Hu等人，2021a）以及按照Hu等人（2021a）中類似收集過程收集的額外6億個數據。

然而，這是論文中稱為“GIT”的模型的訓練數據，該模型並未開源。

此檢查點是“GIT-base”，它是GIT的一個較小變體，在1000萬個圖像 - 文本對上進行訓練。隨後，該模型在TextCaps上進行了微調。

更多詳細信息請參閱論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表11。