ViT-GPT2-Image-Captioning開源圖像描述模型 - 免費為圖像生成自然語言描述

Home

Vit GPT2 Image Captioning

Developed by mo-thecreator

基於ViT-GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

Transformers

#視覺-文本生成 #多模態模型 #圖像描述生成

Downloads 17

Release Time : 9/30/2024

Model Overview

該模型結合了視覺Transformer(ViT)和GPT-2語言模型，用於圖像到文本的生成任務，能夠自動為圖像生成描述性文字。

Model Features

多模態架構

結合視覺Transformer處理圖像特徵和GPT-2生成自然語言描述

端到端訓練

整個模型可以端到端地進行訓練和微調

BLEU優化

在評估集上達到9.7054的BLEU分數

Model Capabilities

圖像理解

自然語言生成

圖像到文本轉換

Use Cases

輔助技術

視障人士輔助

為視障人士自動描述圖像內容

內容管理

圖像自動標註

為大量圖像自動生成描述性標籤

訓練損失	輪數	步數	驗證損失	Rouge2 精確率	Rouge2 召回率	Rouge2 F 度量值	藍值（Bleu）
2.1537	0.9993	1171	2.13666	無	無	0.1531	9.4673
2.0434	1.9985	2342	2.125337	無	無	0.155	9.7054

屬性	詳情
模型類型	基於 ViT - GPT2 的圖像描述模型
訓練數據	未知

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit GPT2 Image Captioning

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 ViT - GPT2

🚀 快速開始

📚 詳細文檔

模型描述

預期用途與限制

訓練和評估數據

訓練過程

訓練超參數

訓練結果

框架版本

📦 模型信息