V

Vit Gpt2 Image Captioning

Developed by Xenova
基于ViT和GPT2架构的图像描述生成模型,可将输入的图像转换为自然语言描述。
Downloads 2,163
Release Time : 5/2/2023

Model Overview

该模型结合了视觉Transformer(ViT)和GPT2语言模型,能够自动为输入图像生成简洁准确的文字描述。适用于需要图像理解与文本生成结合的应用场景。

Model Features

视觉-语言联合建模
结合视觉Transformer和GPT2语言模型,实现图像到文本的端到端生成
ONNX格式支持
提供适配Transformers.js的ONNX权重版本,便于网页端部署
轻量级部署
模型经过优化,适合在Web环境中运行

Model Capabilities

图像理解
自然语言生成
图像到文本转换

Use Cases

无障碍技术
图像辅助描述
为视障用户自动生成图像的文字描述
提升视障用户对图像内容的理解
内容管理
自动图像标注
为大量图像自动生成描述性标签
提高图像检索和管理效率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase