G

Git Large Vatex

Developed by microsoft
GIT是一个基于CLIP图像标记和文本标记条件化的Transformer解码器,用于图像和视频描述生成、视觉问答等任务。
Downloads 267
Release Time : 1/2/2023

Model Overview

GIT模型通过教师强制方式在大量图像-文本对上训练,能够预测下一个文本标记,适用于图像/视频描述生成、视觉问答和图像分类等任务。

Model Features

多模态处理能力
能够同时处理视觉和文本信息,实现图像到文本的生成
双向注意力机制
对图像标记使用双向注意力,对文本标记使用因果注意力
多任务适应性
可用于描述生成、视觉问答和分类等多种视觉语言任务

Model Capabilities

图像描述生成
视频描述生成
视觉问答
图像分类

Use Cases

媒体内容生成
视频自动描述
为视频内容生成自然语言描述
辅助技术
视觉辅助
为视障人士描述图像内容
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase