git-large-r-textcaps開源模型 - 免費支持圖像描述、視覺問答等應用

首頁

Git Large R Textcaps

由microsoft開發

GIT是一種基於CLIP圖像標記和文本標記的雙條件Transformer解碼器，用於圖像描述生成和視覺問答等任務。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #圖像描述生成 #視覺問答 #多模態Transformer

下載量 51

發布時間 : 1/22/2023

模型概述

GIT（GenerativeImage2Text的縮寫）模型的大尺寸版本，基於TextCaps微調。該模型通過CLIP圖像標記和文本標記的雙條件Transformer解碼器實現圖像到文本的生成。

模型特點

雙條件Transformer解碼器

結合CLIP圖像標記和文本標記，實現圖像到文本的生成。

多任務支持

可用於圖像描述生成、視覺問答（VQA）和圖像分類等多種任務。

大規模預訓練

基於2000萬圖像-文本對訓練，並在TextCaps上微調。

模型能力

圖像描述生成

視覺問答（VQA）

圖像分類

使用案例

圖像理解

圖像描述生成

為輸入的圖像生成詳細的文本描述。

視覺問答

回答關於圖像內容的自然語言問題。

圖像分類

通過生成文本類別對圖像進行分類。

🚀 GIT (GenerativeImage2Text) 大尺寸模型，在TextCaps上微調，R*

R 表示通過移除 cc12m 數據集中一些冒犯性描述後重新訓練

GIT（GenerativeImage2Text 的縮寫）大尺寸版本模型，在 TextCaps 上進行了微調。該模型由 Wang 等人在論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，並首次在此倉庫發佈。

免責聲明：發佈 GIT 的團隊未為此模型撰寫模型卡片，此模型卡片由 Hugging Face 團隊撰寫。

✨ 主要特性

GIT 是一個基於 CLIP 圖像令牌和文本令牌的 Transformer 解碼器。該模型在大量的（圖像，文本）對上使用“教師強制”方法進行訓練。

模型的目標很簡單，即在給定圖像令牌和先前文本令牌的情況下，預測下一個文本令牌。

在預測下一個文本令牌時，模型可以完全訪問（即使用雙向注意力掩碼）圖像塊令牌，但只能訪問先前的文本令牌（即對文本令牌使用因果注意力掩碼）。

GIT 架構

這使得該模型可用於以下任務：

圖像和視頻描述
圖像和視頻的視覺問答（VQA）
甚至圖像分類（只需將模型基於圖像進行條件設置，並要求它以文本形式生成圖像的類別）

🚀 快速開始

你可以使用原始模型進行圖像描述。請查看模型中心，以查找針對你感興趣的任務進行微調的版本。

如何使用

有關代碼示例，請參考文檔。

📚 詳細文檔

訓練數據

根據論文所述：

我們收集了 8 億個圖像 - 文本對用於預訓練，其中包括 COCO（Lin 等人，2014）、Conceptual Captions（CC3M）（Sharma 等人，2018）、SBU（Ordonez 等人，2011）、Visual Genome（VG）（Krishna 等人，2016）、Conceptual Captions（CC12M）（Changpinyo 等人，2021）、ALT200M（Hu 等人，2021a），以及按照 Hu 等人（2021a）中類似的收集程序收集的額外 6 億個數據。

然而，這是論文中所提到的“GIT”模型的數據，該模型並未開源。

此檢查點對應的是“GIT - large”，它是 GIT 的一個較小變體，在 2000 萬個圖像 - 文本對上進行訓練。

接下來，該模型在 TextCaps 上進行了微調。

更多詳細信息請參閱論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表 11。

預處理

關於訓練期間預處理的詳細信息，請參考原始倉庫。

在驗證期間，首先調整每個圖像的較短邊大小，然後進行中心裁剪以達到固定大小的分辨率。接下來，使用 ImageNet 的均值和標準差在 RGB 通道上對幀進行歸一化處理。

評估結果

有關評估結果，請參考論文 GIT: A Generative Image-to-text Transformer for Vision and Language。

📄 許可證

本項目採用 MIT 許可證。

屬性	詳情
模型類型	基於 Transformer 解碼器的圖像 - 文本生成模型
訓練數據	8 億個圖像 - 文本對用於預訓練（包含 COCO、Conceptual Captions 等），“GIT - large”在 2000 萬個圖像 - 文本對上訓練並在 TextCaps 上微調