git-base开源图像到文本生成模型 - 免费部署实现图像精准文本描述

首页

Git Base

由 microsoft 开发

GIT是一个基于CLIP图像标记和文本标记的双条件Transformer解码器，用于图像到文本的生成任务。

图像生成文本

Transformers

支持多种语言开源协议:MIT #图像字幕生成 #视觉问答(VQA)#双模态Transformer

下载量 365.74k

发布时间 : 12/6/2022

模型简介

GIT是一个生成式图像到文本的Transformer模型，能够根据图像内容生成描述性文本，支持图像字幕生成、视觉问答等任务。

模型特点

双条件Transformer架构

同时处理图像标记和文本标记，实现图像到文本的生成。

多任务支持

可应用于图像字幕生成、视觉问答和图像分类等多种视觉语言任务。

大规模预训练

在1000万图像-文本对上进行了预训练（基础版）。

模型能力

图像字幕生成

视觉问答

图像分类

视频字幕生成

使用案例

内容生成

自动图像描述

为图像生成准确的文字描述

可用于辅助视障人士或内容管理

问答系统

视觉问答

回答关于图像内容的自然语言问题

可用于智能客服或教育应用

🚀 GIT (GenerativeImage2Text) 基础版本

GIT（GenerativeImage2Text 的缩写）模型的基础版本。该模型由 Wang 等人在论文 GIT: A Generative Image-to-text Transformer for Vision and Language 中提出，并首次在此仓库发布。

声明：发布 GIT 的团队并未为此模型撰写模型卡片，此模型卡片由 Hugging Face 团队编写。

🚀 快速开始

GIT 模型可用于图像和视频描述、视觉问答等多种视觉与语言相关的任务。你可以使用原始模型进行图像描述，也可以在模型中心查找针对特定任务微调后的版本。

✨ 主要特性

多任务适用性：可用于图像和视频描述、视觉问答（VQA），甚至图像分类任务。
条件式训练：基于 CLIP 图像令牌和文本令牌进行训练，通过“教师强制”方法在大量（图像，文本）对上进行学习。
注意力机制：在预测下一个文本令牌时，对图像补丁令牌使用双向注意力掩码，对文本令牌使用因果注意力掩码。

📚 详细文档

模型描述

GIT 是一个基于 CLIP 图像令牌和文本令牌的 Transformer 解码器。该模型在大量（图像，文本）对上使用“教师强制”方法进行训练。

模型的目标很简单，即在给定图像令牌和先前文本令牌的情况下，预测下一个文本令牌。

在预测下一个文本令牌时，模型可以完全访问（即使用双向注意力掩码）图像补丁令牌，但只能访问先前的文本令牌（即对文本令牌使用因果注意力掩码）。

GIT 架构

这使得该模型可用于以下任务：

图像和视频描述
图像和视频的视觉问答（VQA）
甚至图像分类（通过简单地以图像为条件并要求模型以文本形式生成类别）

预期用途与限制

你可以使用原始模型进行图像描述。请查看模型中心以查找针对你感兴趣的任务进行微调后的版本。

使用方法

有关代码示例，请参考文档。

训练数据

根据论文：

我们收集了 8 亿个图像 - 文本对用于预训练，其中包括 COCO（Lin 等人，2014）、Conceptual Captions (CC3M)（Sharma 等人，2018）、SBU（Ordonez 等人，2011）、Visual Genome (VG)（Krishna 等人，2016）、Conceptual Captions (CC12M)（Changpinyo 等人，2021）、ALT200M（Hu 等人，2021a），以及按照 Hu 等人（2021a）中类似的收集过程收集的额外 6 亿个数据。

然而，这是论文中称为“GIT”的模型的数据，该模型并未开源。

此检查点是“GIT - 基础版”，它是在 1000 万个图像 - 文本对上训练的 GIT 较小变体。

更多详细信息请参阅论文中的表 11。

预处理

关于训练期间的预处理细节，请参考原始仓库。

在验证期间，首先对每个图像的较短边进行调整大小，然后进行中心裁剪以达到固定大小的分辨率。接下来，使用 ImageNet 的均值和标准差对 RGB 通道的帧进行归一化。

评估结果

有关评估结果，请参阅论文。

📄 许可证

本项目采用 MIT 许可证。

属性	详情
模型类型	基于 Transformer 解码器的图像到文本生成模型
训练数据	8 亿个图像 - 文本对（论文中的 GIT 模型）；1000 万个图像 - 文本对（GIT - 基础版）