V

Vit Gpt2 Image Captioning

由 Xenova 开发
基于ViT和GPT2架构的图像描述生成模型,可将输入的图像转换为自然语言描述。
下载量 2,163
发布时间 : 5/2/2023

模型简介

该模型结合了视觉Transformer(ViT)和GPT2语言模型,能够自动为输入图像生成简洁准确的文字描述。适用于需要图像理解与文本生成结合的应用场景。

模型特点

视觉-语言联合建模
结合视觉Transformer和GPT2语言模型,实现图像到文本的端到端生成
ONNX格式支持
提供适配Transformers.js的ONNX权重版本,便于网页端部署
轻量级部署
模型经过优化,适合在Web环境中运行

模型能力

图像理解
自然语言生成
图像到文本转换

使用案例

无障碍技术
图像辅助描述
为视障用户自动生成图像的文字描述
提升视障用户对图像内容的理解
内容管理
自动图像标注
为大量图像自动生成描述性标签
提高图像检索和管理效率
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase