vit - gpt2 - image - captioning开源图像描述模型 - 免费将图像转换为自然语言描述

Home

Vit Gpt2 Image Captioning

Developed by Xenova

基于ViT和GPT2架构的图像描述生成模型，可将输入的图像转换为自然语言描述。

图像生成文本

Transformers

#网页端图像描述生成 #ONNX格式适配 #视觉-语言多模态

Downloads 2,163

Release Time : 5/2/2023

Model Overview

该模型结合了视觉Transformer(ViT)和GPT2语言模型，能够自动为输入图像生成简洁准确的文字描述。适用于需要图像理解与文本生成结合的应用场景。

Model Features

视觉-语言联合建模

结合视觉Transformer和GPT2语言模型，实现图像到文本的端到端生成

ONNX格式支持

提供适配Transformers.js的ONNX权重版本，便于网页端部署

轻量级部署

模型经过优化，适合在Web环境中运行

Model Capabilities

图像理解

自然语言生成

图像到文本转换

Use Cases

无障碍技术

图像辅助描述

为视障用户自动生成图像的文字描述

提升视障用户对图像内容的理解

内容管理

自动图像标注

为大量图像自动生成描述性标签

提高图像检索和管理效率

属性	详情
基础模型	nlpconnect/vit - gpt2 - image - captioning
库名称	transformers.js
任务类型	图像到文本
标签	图像描述

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit Gpt2 Image Captioning

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 图像到文本模型

🚀 快速开始

📚 详细文档

模型信息

注意事项