git-base-textcaps开源图像转文本模型 - 免费将视觉内容转换成描述性文本

首页

Git Base Textcaps

由 microsoft 开发

GIT是一个基于Transformer的生成式图像到文本模型，能够将视觉内容转换为描述性文本。

图像生成文本

Transformers

支持多种语言开源协议:MIT #图像描述生成 #视觉问答 #多模态Transformer

下载量 482

发布时间 : 12/6/2022

模型简介

GIT模型通过结合CLIP图像标记和文本标记的Transformer解码器，实现图像描述生成、视觉问答等任务。

模型特点

双向图像注意力

模型对图像块标记使用双向注意力机制，充分理解图像内容

因果文本生成

在生成文本时使用因果注意力掩码，确保自回归生成质量

多任务适应性

可用于图像描述生成、视觉问答和图像分类等多种任务

模型能力

图像描述生成

视觉问答(VQA)

图像分类(通过文本生成)

使用案例

内容生成

自动图像标注

为图像生成描述性文本

生成符合图像内容的自然语言描述

辅助技术

视觉辅助

为视障人士描述图像内容

🚀 GIT (GenerativeImage2Text) 基础尺寸模型，在TextCaps上微调

GIT（GenerativeImage2Text的缩写）是基础尺寸版本的模型，在TextCaps上进行了微调。该模型由Wang等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，并首次在此仓库中发布。

声明：发布GIT的团队并未为此模型编写模型卡片，此模型卡片由Hugging Face团队编写。

🚀 快速开始

GIT模型可用于图像和视频字幕生成、视觉问答以及图像分类等任务。你可以使用原始模型进行图像字幕生成，也可以在模型中心中查找针对特定任务微调后的版本。

✨ 主要特性

多模态输入：GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器，能够处理图像和文本信息。
广泛的应用场景：可用于图像和视频字幕生成、视觉问答、图像分类等任务。
灵活的预测机制：模型的目标是根据图像令牌和之前的文本令牌预测下一个文本令牌，在预测时对图像补丁令牌具有全访问权限，对文本令牌则使用因果注意力掩码。

📚 详细文档

模型描述

GIT是一个基于CLIP图像令牌和文本令牌的Transformer解码器。该模型使用“教师强制”方法在大量的（图像，文本）对上进行训练。模型的目标是根据图像令牌和之前的文本令牌预测下一个文本令牌。在预测时，模型对图像补丁令牌具有全访问权限（即使用双向注意力掩码），但仅能访问之前的文本令牌（即对文本令牌使用因果注意力掩码）。

GIT架构

这种机制使得模型可用于以下任务：

图像和视频字幕生成
图像和视频的视觉问答（VQA）
图像分类（通过简单地将模型基于图像进行条件设置并要求其以文本形式生成类别）

预期用途和限制

你可以使用原始模型进行图像字幕生成。在模型中心中查找针对你感兴趣的任务微调后的版本。

使用方法

有关代码示例，请参考文档。

训练数据

根据论文所述：

我们收集了8亿个图像 - 文本对用于预训练，其中包括COCO（Lin等人，2014）、Conceptual Captions (CC3M)（Sharma等人，2018）、SBU（Ordonez等人，2011）、Visual Genome (VG)（Krishna等人，2016）、Conceptual Captions (CC12M)（Changpinyo等人，2021）、ALT200M（Hu等人，2021a）以及按照Hu等人（2021a）中类似收集过程收集的额外6亿个数据。

然而，这是论文中称为“GIT”的模型的训练数据，该模型并未开源。

此检查点是“GIT-base”，它是GIT的一个较小变体，在1000万个图像 - 文本对上进行训练。随后，该模型在TextCaps上进行了微调。

更多详细信息请参阅论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中的表11。