🚀 GIT (GenerativeImage2Text) 基础尺寸模型,在TextCaps上微调
GIT(GenerativeImage2Text的缩写)是基础尺寸版本的模型,在TextCaps上进行了微调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出,并首次在 此仓库 中发布。
声明:发布GIT的团队并未为此模型编写模型卡片,此模型卡片由Hugging Face团队编写。
🚀 快速开始
GIT模型可用于图像和视频字幕生成、视觉问答以及图像分类等任务。你可以使用原始模型进行图像字幕生成,也可以在 模型中心 中查找针对特定任务微调后的版本。
✨ 主要特性
- 多模态输入:GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器,能够处理图像和文本信息。
- 广泛的应用场景:可用于图像和视频字幕生成、视觉问答、图像分类等任务。
- 灵活的预测机制:模型的目标是根据图像令牌和之前的文本令牌预测下一个文本令牌,在预测时对图像补丁令牌具有全访问权限,对文本令牌则使用因果注意力掩码。
📚 详细文档
模型描述
GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型使用“教师强制”方法在大量的(图像,文本)对上进行训练。模型的目标是根据图像令牌和之前的文本令牌预测下一个文本令牌。在预测时,模型对图像补丁令牌具有全访问权限(即使用双向注意力掩码),但仅能访问之前的文本令牌(即对文本令牌使用因果注意力掩码)。

这种机制使得模型可用于以下任务:
- 图像和视频字幕生成
- 图像和视频的视觉问答(VQA)
- 图像分类(通过简单地将模型基于图像进行条件设置并要求其以文本形式生成类别)
预期用途和限制
你可以使用原始模型进行图像字幕生成。在 模型中心 中查找针对你感兴趣的任务微调后的版本。
使用方法
有关代码示例,请参考 文档。
训练数据
根据论文所述:
我们收集了8亿个图像 - 文本对用于预训练,其中包括COCO(Lin等人,2014)、Conceptual Captions (CC3M)(Sharma等人,2018)、SBU(Ordonez等人,2011)、Visual Genome (VG)(Krishna等人,2016)、Conceptual Captions (CC12M)(Changpinyo等人,2021)、ALT200M(Hu等人,2021a)以及按照Hu等人(2021a)中类似收集过程收集的额外6亿个数据。
然而,这是论文中称为“GIT”的模型的训练数据,该模型并未开源。
此检查点是“GIT-base”,它是GIT的一个较小变体,在1000万个图像 - 文本对上进行训练。随后,该模型在TextCaps上进行了微调。
更多详细信息请参阅论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表11。
预处理
关于训练期间的预处理细节,请参考原始仓库。
在验证期间,首先调整每个图像的较短边,然后进行中心裁剪以达到固定大小的分辨率。接下来,使用ImageNet的均值和标准差在RGB通道上对帧进行归一化。
评估结果
有关评估结果,请参阅论文 GIT: A Generative Image-to-text Transformer for Vision and Language。
📄 许可证
本项目采用MIT许可证。