git-base開源圖像到文本生成模型 - 免費部署實現圖像精準文本描述

首頁

Git Base

由microsoft開發

GIT是一個基於CLIP圖像標記和文本標記的雙條件Transformer解碼器，用於圖像到文本的生成任務。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #圖像字幕生成 #視覺問答(VQA)#雙模態Transformer

下載量 365.74k

發布時間 : 12/6/2022

模型概述

GIT是一個生成式圖像到文本的Transformer模型，能夠根據圖像內容生成描述性文本，支持圖像字幕生成、視覺問答等任務。

模型特點

雙條件Transformer架構

同時處理圖像標記和文本標記，實現圖像到文本的生成。

多任務支持

可應用於圖像字幕生成、視覺問答和圖像分類等多種視覺語言任務。

大規模預訓練

在1000萬圖像-文本對上進行了預訓練（基礎版）。

模型能力

圖像字幕生成

視覺問答

圖像分類

視頻字幕生成

使用案例

內容生成

自動圖像描述

為圖像生成準確的文字描述

可用於輔助視障人士或內容管理

問答系統

視覺問答

回答關於圖像內容的自然語言問題

可用於智能客服或教育應用

🚀 GIT (GenerativeImage2Text) 基礎版本

GIT（GenerativeImage2Text 的縮寫）模型的基礎版本。該模型由 Wang 等人在論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，並首次在此倉庫發佈。

聲明：發佈 GIT 的團隊並未為此模型撰寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

🚀 快速開始

GIT 模型可用於圖像和視頻描述、視覺問答等多種視覺與語言相關的任務。你可以使用原始模型進行圖像描述，也可以在模型中心查找針對特定任務微調後的版本。

✨ 主要特性

多任務適用性：可用於圖像和視頻描述、視覺問答（VQA），甚至圖像分類任務。
條件式訓練：基於 CLIP 圖像令牌和文本令牌進行訓練，通過“教師強制”方法在大量（圖像，文本）對上進行學習。
注意力機制：在預測下一個文本令牌時，對圖像補丁令牌使用雙向注意力掩碼，對文本令牌使用因果注意力掩碼。

📚 詳細文檔

模型描述

GIT 是一個基於 CLIP 圖像令牌和文本令牌的 Transformer 解碼器。該模型在大量（圖像，文本）對上使用“教師強制”方法進行訓練。

模型的目標很簡單，即在給定圖像令牌和先前文本令牌的情況下，預測下一個文本令牌。

在預測下一個文本令牌時，模型可以完全訪問（即使用雙向注意力掩碼）圖像補丁令牌，但只能訪問先前的文本令牌（即對文本令牌使用因果注意力掩碼）。

GIT 架構

這使得該模型可用於以下任務：

圖像和視頻描述
圖像和視頻的視覺問答（VQA）
甚至圖像分類（通過簡單地以圖像為條件並要求模型以文本形式生成類別）

預期用途與限制

你可以使用原始模型進行圖像描述。請查看模型中心以查找針對你感興趣的任務進行微調後的版本。

使用方法

有關代碼示例，請參考文檔。

訓練數據

根據論文：

我們收集了 8 億個圖像 - 文本對用於預訓練，其中包括 COCO（Lin 等人，2014）、Conceptual Captions (CC3M)（Sharma 等人，2018）、SBU（Ordonez 等人，2011）、Visual Genome (VG)（Krishna 等人，2016）、Conceptual Captions (CC12M)（Changpinyo 等人，2021）、ALT200M（Hu 等人，2021a），以及按照 Hu 等人（2021a）中類似的收集過程收集的額外 6 億個數據。

然而，這是論文中稱為“GIT”的模型的數據，該模型並未開源。

此檢查點是“GIT - 基礎版”，它是在 1000 萬個圖像 - 文本對上訓練的 GIT 較小變體。

更多詳細信息請參閱論文中的表 11。

預處理

關於訓練期間的預處理細節，請參考原始倉庫。

在驗證期間，首先對每個圖像的較短邊進行調整大小，然後進行中心裁剪以達到固定大小的分辨率。接下來，使用 ImageNet 的均值和標準差對 RGB 通道的幀進行歸一化。

評估結果

有關評估結果，請參閱論文。

📄 許可證

本項目採用 MIT 許可證。

屬性	詳情
模型類型	基於 Transformer 解碼器的圖像到文本生成模型
訓練數據	8 億個圖像 - 文本對（論文中的 GIT 模型）；1000 萬個圖像 - 文本對（GIT - 基礎版）