git-large-r-coco開源圖像轉文本模型 - 免費根據圖像生成描述性文本

首頁

Git Large R Coco

由microsoft開發

GIT是一個基於Transformer的生成式圖像到文本模型，能夠根據圖像生成描述性文本。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #圖像描述生成 #視覺問答 #多模態Transformer

下載量 86

發布時間 : 1/22/2023

模型概述

GIT模型通過結合CLIP圖像標記和文本標記，使用Transformer解碼器架構，在大量圖像-文本對上進行訓練，能夠執行圖像描述生成、視覺問答等任務。

模型特點

雙向圖像注意力

模型對圖像塊標記具有完全訪問權限，使用雙向注意力機制處理圖像信息。

因果文本生成

在生成文本時使用因果注意力掩碼，僅能訪問之前的文本標記，確保生成連貫的文本描述。

多任務能力

不僅限於圖像描述生成，還可用於視覺問答和圖像分類等多種視覺語言任務。

模型能力

圖像描述生成

視覺問答(VQA)

圖像分類

視頻描述生成

使用案例

內容生成

自動圖像標註

為社交媒體或內容管理系統中的圖像自動生成描述性文本

提高內容可訪問性和搜索引擎優化

輔助技術

視覺輔助

為視障人士提供圖像內容的語音描述

增強數字內容可訪問性

🚀 GIT (GenerativeImage2Text) 大尺寸模型，在COCO數據集上微調，R*

R = 通過移除cc12m數據集中一些冒犯性描述進行重新訓練

GIT（GenerativeImage2Text的縮寫）模型，大尺寸版本，在COCO數據集上進行了微調。該模型由Wang等人在論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，並首次在此倉庫發佈。

免責聲明：發佈GIT的團隊並未為此模型編寫模型卡片，此模型卡片由Hugging Face團隊編寫。

✨ 主要特性

GIT是一個基於CLIP圖像標記和文本標記的Transformer解碼器。該模型使用“教師強制”方法在大量的（圖像，文本）對上進行訓練。

模型的目標很簡單，即在給定圖像標記和先前文本標記的情況下，預測下一個文本標記。

在預測下一個文本標記時，模型可以完全訪問（即使用雙向注意力掩碼）圖像塊標記，但只能訪問先前的文本標記（即對文本標記使用因果注意力掩碼）。

GIT架構

這使得該模型可用於以下任務：

圖像和視頻描述
圖像和視頻的視覺問答（VQA）
甚至圖像分類（只需將模型基於圖像進行條件設置，並要求它以文本形式生成圖像的類別）

🚀 快速開始

你可以使用原始模型進行圖像描述。請查看模型中心以查找針對你感興趣的任務進行微調的版本。

如何使用

關於代碼示例，請參考文檔。

📚 詳細文檔

訓練數據

根據論文所述：

我們收集了8億個圖像 - 文本對用於預訓練，其中包括COCO（Lin等人，2014）、Conceptual Captions（CC3M）（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome（VG）（Krishna等人，2016）、Conceptual Captions（CC12M）（Changpinyo等人，2021）、ALT200M（Hu等人，2021a）以及按照Hu等人（2021a）中類似收集程序收集的額外6億個數據。

=> 然而，這是論文中稱為“GIT”的模型的數據，該模型並未開源。

此檢查點是“GIT-large”，它是GIT的一個較小變體，在2000萬個圖像 - 文本對上進行訓練。

接下來，該模型在COCO數據集上進行了微調。

更多詳細信息請參閱論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表11。

預處理

關於訓練期間預處理的詳細信息，請參考原始倉庫。

在驗證期間，首先對每個圖像的較短邊進行調整大小，然後進行中心裁剪以達到固定大小的分辨率。接下來，使用ImageNet的均值和標準差在RGB通道上對幀進行歸一化。

🔧 技術細節

關於評估結果，請參考論文 GIT: A Generative Image-to-text Transformer for Vision and Language。

📄 許可證

本項目採用MIT許可證。

屬性	詳情
模型類型	基於CLIP圖像標記和文本標記的Transformer解碼器
訓練數據	8億個圖像 - 文本對用於預訓練，“GIT-large”在2000萬個圖像 - 文本對上訓練並在COCO數據集上微調