G

Git Base Vqav2

Developed by microsoft
GIT是一种基于Transformer解码器的视觉语言模型,通过CLIP图像标记和文本标记条件化训练,适用于图像描述生成、视觉问答等任务。
Downloads 199
Release Time : 12/6/2022

Model Overview

GIT(GenerativeImage2Text的缩写)模型为基础规模版本,并在VQAv2数据集上进行了微调。该模型通过双向注意力机制处理图像标记,采用因果注意力掩码生成文本标记。

Model Features

双向图像注意力机制
模型对图像块标记采用双向注意力机制,完全访问图像信息。
因果文本生成
在预测下一个文本标记时,仅能访问之前的文本标记,采用因果注意力掩码。
多任务适应性
模型可应用于图像描述生成、视觉问答和图像分类等多种任务。

Model Capabilities

图像描述生成
视觉问答
图像分类

Use Cases

视觉问答
VQAv2数据集问答
基于VQAv2数据集微调的模型,可用于回答关于图像内容的问题。
具体评估结果参见原论文。
图像描述生成
自动图像标注
模型可生成描述图像内容的文本。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase