git-base-finetune開源圖像轉文本模型 - 免費將視覺內容變描述性文本

首頁

Git Base Finetune

由wangjin2000開發

GIT是一個基於Transformer的生成式圖像到文本模型，能夠將視覺內容轉換為描述性文本。

圖像生成文本

Transformers

支持多種語言開源協議:MIT #圖像描述生成 #視覺問答 #多模態Transformer

下載量 18

發布時間 : 5/23/2023

模型概述

GIT模型通過結合CLIP圖像標記和文本標記的Transformer解碼器，實現圖像到文本的轉換。它能夠生成圖像描述、進行視覺問答甚至圖像分類。

模型特點

雙向圖像注意力

模型對圖像塊標記具有完全訪問權限，使用雙向注意力掩碼，能更好地理解圖像內容。

因果文本生成

在預測下一個文本標記時僅能訪問先前的文本標記，使用因果注意力掩碼，確保生成連貫的文本。

多任務適應性

模型可用於圖像描述生成、視覺問答和圖像分類等多種視覺語言任務。

模型能力

圖像描述生成

視覺問答

圖像分類

視頻描述生成

使用案例

內容生成

自動圖像標註

為圖像生成描述性文本，可用於圖像檢索和內容管理。

輔助技術

視覺輔助

為視障人士提供圖像內容的文字描述。

教育

視覺學習輔助

幫助學生理解複雜圖像內容，生成解釋性文本。

🚀 GIT (GenerativeImage2Text) 基礎尺寸模型

GIT（GenerativeImage2Text 的縮寫）模型的基礎尺寸版本。該模型由 Wang 等人在論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，並首次在此倉庫發佈。

聲明：發佈 GIT 的團隊並未為此模型撰寫模型卡片，此模型卡片由 Hugging Face 團隊編寫。

✨ 主要特性

GIT 是一個基於 CLIP 圖像令牌和文本令牌的 Transformer 解碼器。該模型在大量的（圖像，文本）對上使用“教師強制”方法進行訓練。

模型的目標很簡單，即在給定圖像令牌和先前文本令牌的情況下，預測下一個文本令牌。

在預測下一個文本令牌時，模型可以完全訪問（即使用雙向注意力掩碼）圖像塊令牌，但只能訪問先前的文本令牌（即對文本令牌使用因果注意力掩碼）。

GIT 架構

這使得該模型可用於以下任務：

圖像和視頻字幕生成
圖像和視頻的視覺問答（VQA）
甚至圖像分類（只需讓模型基於圖像進行條件設定，並要求它以文本形式生成圖像類別）

🚀 快速開始

你可以使用原始模型進行圖像字幕生成。請查看模型中心，以查找針對你感興趣的任務進行微調的版本。

如何使用

關於代碼示例，請參考文檔。

📚 詳細文檔

訓練數據

根據論文所述：

我們收集了 8 億個圖像 - 文本對用於預訓練，其中包括 COCO（Lin 等人，2014）、Conceptual Captions (CC3M)（Sharma 等人，2018）、SBU（Ordonez 等人，2011）、Visual Genome (VG)（Krishna 等人，2016）、Conceptual Captions (CC12M)（Changpinyo 等人，2021）、ALT200M（Hu 等人，2021a），以及按照 Hu 等人（2021a）中類似收集程序收集的額外 6 億個數據。

不過，這是論文中稱為“GIT”的模型的訓練數據，該模型並未開源。

此檢查點對應的是“GIT-base”，它是 GIT 的一個較小變體，在 1000 萬個圖像 - 文本對上進行訓練。

更多詳細信息請參閱論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表 11。