🚀 GIT (GenerativeImage2Text) 基礎尺寸模型,在TextCaps上微調
GIT(GenerativeImage2Text的縮寫)是基礎尺寸版本的模型,在TextCaps上進行了微調。該模型由Wang等人在論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出,並首次在 此倉庫 中發佈。
聲明:發佈GIT的團隊並未為此模型編寫模型卡片,此模型卡片由Hugging Face團隊編寫。
🚀 快速開始
GIT模型可用於圖像和視頻字幕生成、視覺問答以及圖像分類等任務。你可以使用原始模型進行圖像字幕生成,也可以在 模型中心 中查找針對特定任務微調後的版本。
✨ 主要特性
- 多模態輸入:GIT是一個基於CLIP圖像令牌和文本令牌的Transformer解碼器,能夠處理圖像和文本信息。
- 廣泛的應用場景:可用於圖像和視頻字幕生成、視覺問答、圖像分類等任務。
- 靈活的預測機制:模型的目標是根據圖像令牌和之前的文本令牌預測下一個文本令牌,在預測時對圖像補丁令牌具有全訪問權限,對文本令牌則使用因果注意力掩碼。
📚 詳細文檔
模型描述
GIT是一個基於CLIP圖像令牌和文本令牌的Transformer解碼器。該模型使用“教師強制”方法在大量的(圖像,文本)對上進行訓練。模型的目標是根據圖像令牌和之前的文本令牌預測下一個文本令牌。在預測時,模型對圖像補丁令牌具有全訪問權限(即使用雙向注意力掩碼),但僅能訪問之前的文本令牌(即對文本令牌使用因果注意力掩碼)。

這種機制使得模型可用於以下任務:
- 圖像和視頻字幕生成
- 圖像和視頻的視覺問答(VQA)
- 圖像分類(通過簡單地將模型基於圖像進行條件設置並要求其以文本形式生成類別)
預期用途和限制
你可以使用原始模型進行圖像字幕生成。在 模型中心 中查找針對你感興趣的任務微調後的版本。
使用方法
有關代碼示例,請參考 文檔。
訓練數據
根據論文所述:
我們收集了8億個圖像 - 文本對用於預訓練,其中包括COCO(Lin等人,2014)、Conceptual Captions (CC3M)(Sharma等人,2018)、SBU(Ordonez等人,2011)、Visual Genome (VG)(Krishna等人,2016)、Conceptual Captions (CC12M)(Changpinyo等人,2021)、ALT200M(Hu等人,2021a)以及按照Hu等人(2021a)中類似收集過程收集的額外6億個數據。
然而,這是論文中稱為“GIT”的模型的訓練數據,該模型並未開源。
此檢查點是“GIT-base”,它是GIT的一個較小變體,在1000萬個圖像 - 文本對上進行訓練。隨後,該模型在TextCaps上進行了微調。
更多詳細信息請參閱論文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表11。
預處理
關於訓練期間的預處理細節,請參考原始倉庫。
在驗證期間,首先調整每個圖像的較短邊,然後進行中心裁剪以達到固定大小的分辨率。接下來,使用ImageNet的均值和標準差在RGB通道上對幀進行歸一化。
評估結果
有關評估結果,請參閱論文 GIT: A Generative Image-to-text Transformer for Vision and Language。
📄 許可證
本項目採用MIT許可證。