ViT-GPT2-Image-Captioning Open-Source Image Captioning Model - Generate Natural Language Descriptions for Images for Free

Vit GPT2 Image Captioning

Developed by mo-thecreator

An image captioning model based on the ViT-GPT2 architecture, capable of generating natural language descriptions for input images.

Image-to-Text

Transformers

#Vision-Text Generation #Multimodal Model #Image Captioning

Downloads 17

Release Time : 9/30/2024

Model Overview

This model combines Vision Transformer (ViT) and GPT-2 language model for image-to-text generation tasks, automatically generating descriptive text for images.

Model Features

Multimodal Architecture

Combines Vision Transformer for image feature processing and GPT-2 for natural language description generation

End-to-End Training

The entire model can be trained and fine-tuned end-to-end

BLEU Optimization

Achieves a BLEU score of 9.7054 on the evaluation set

Model Capabilities

Image Understanding

Natural Language Generation

Image-to-Text Conversion

Use Cases

Assistive Technology

Assistance for the Visually Impaired

Automatically describes image content for visually impaired individuals

Content Management

Automatic Image Tagging

Automatically generates descriptive tags for large volumes of images

Property	Details
Library Name	transformers
Base Model	motheecreator/ViT - GPT2 - Image_Captioning_model
Tags	generated_from_trainer, image - to - text
Metrics	bleu

Training Loss	Epoch	Step	Validation Loss	Rouge2 Precision	Rouge2 Recall	Rouge2 Fmeasure	Bleu
2.1537	0.9993	1171	2.13666	None	None	0.1531	9.4673
2.0434	1.9985	2342	2.125337	None	None	0.155	9.7054

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit GPT2 Image Captioning

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 ViT-GPT2

🚀 Quick Start

📚 Documentation

Model Information

Training and Evaluation

Training hyperparameters

Training results

Framework versions