ViT-GPT2-Image-Captioning開源模型 - 免費為圖像生成自然語言描述

首頁

Vit GPT2 Image Captioning

由motheecreator開發

基於ViT-GPT2架構的圖像描述生成模型，能夠為輸入的圖像生成自然語言描述。

圖像生成文本

Transformers

#視覺-文本生成 #多模態模型 #圖像描述生成

下載量 149

發布時間 : 9/30/2024

模型概述

該模型結合了視覺Transformer(ViT)和GPT-2語言模型，用於圖像到文本的生成任務。它能夠分析圖像內容並生成相應的描述性文字。

模型特點

視覺-語言聯合建模

結合視覺Transformer和語言模型，實現圖像到文本的跨模態理解與生成

端到端訓練

整個模型可以進行端到端的訓練，優化圖像理解和文本生成的聯合任務

BLEU優化

模型在BLEU指標上表現良好，生成的描述與人類參考文本有較高相似度

模型能力

圖像理解

自然語言生成

跨模態轉換

使用案例

輔助技術

視覺輔助

為視障人士提供圖像內容的文字描述

內容創作

社交媒體自動標註

自動為上傳的圖片生成描述性文字

數據標註

自動化圖像標註

為大規模圖像數據集生成初步的文字標註

訓練損失	輪數	步數	驗證損失	Rouge2精確率	Rouge2召回率	Rouge2 F值	藍斯分數（Bleu）
2.1537	0.9993	1171	2.13666	無	無	0.1531	9.4673
2.0434	1.9985	2342	2.125337	無	無	0.155	9.7054

屬性	詳情
模型類型	圖像描述生成模型
基礎模型	motheecreator/ViT - GPT2 - Image_Captioning_model
標籤	由訓練器生成、圖像到文本
評估指標	藍斯分數（Bleu）

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Vit GPT2 Image Captioning

模型概述

模型特點

模型能力

使用案例

🚀 ViT - GPT2

🚀 快速開始

✨ 主要特性

🔧 技術細節

訓練超參數

訓練結果

框架版本

📄 許可證