vit - gpt2 - image - captioning开源图像描述模型 - 免费将图像转换为自然语言描述

首页

Vit Gpt2 Image Captioning

由 Xenova 开发

基于ViT和GPT2架构的图像描述生成模型，可将输入的图像转换为自然语言描述。

图像生成文本

Transformers

#网页端图像描述生成 #ONNX格式适配 #视觉-语言多模态

下载量 2,163

发布时间 : 5/2/2023

模型简介

该模型结合了视觉Transformer(ViT)和GPT2语言模型，能够自动为输入图像生成简洁准确的文字描述。适用于需要图像理解与文本生成结合的应用场景。

模型特点

视觉-语言联合建模

结合视觉Transformer和GPT2语言模型，实现图像到文本的端到端生成

ONNX格式支持

提供适配Transformers.js的ONNX权重版本，便于网页端部署

轻量级部署

模型经过优化，适合在Web环境中运行

模型能力

图像理解

自然语言生成

图像到文本转换

使用案例

无障碍技术

图像辅助描述

为视障用户自动生成图像的文字描述

提升视障用户对图像内容的理解

内容管理

自动图像标注

为大量图像自动生成描述性标签

提高图像检索和管理效率

属性	详情
基础模型	nlpconnect/vit - gpt2 - image - captioning
库名称	transformers.js
任务类型	图像到文本
标签	图像描述

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库

Vit Gpt2 Image Captioning

模型简介

模型特点

模型能力

使用案例

🚀 图像到文本模型

🚀 快速开始

📚 详细文档

模型信息

注意事项