swin-aragpt2-image-captioning-v3開源圖像描述模型

Swin Aragpt2 Image Captioning V3

由AsmaMassad開發

基於Swin Transformer和AraGPT2架構的圖像描述生成模型，能夠為輸入的圖像生成文本描述。

下載量 18

發布時間 : 6/6/2023

模型概述

該模型是一個視覺-語言模型，結合了Swin Transformer的圖像編碼能力和AraGPT2的文本生成能力，專門用於圖像描述生成任務。

多模態架構

結合視覺Transformer和語言模型，實現圖像到文本的轉換

端到端訓練

整個模型進行端到端微調，優化圖像理解和文本生成的聯合能力

跨模態理解

能夠理解圖像內容並生成連貫的描述性文本

圖像內容理解

阿拉伯語文本生成

圖像到文本轉換

輔助技術

視障輔助

為視障用戶生成圖像描述

內容生成

社交媒體內容自動生成

為上傳的圖片自動生成描述文字

訓練損失	輪數	步數	驗證損失	Meteor	Bleu1	Bleu2	Bleu3	Bleu4
1.5775	4.71	5000	1.2386	1.91	2.6908	1.0804	0.3964	0.1282
1.2446	9.42	10000	1.1985	5.09	8.4549	2.9556	1.2756	0.4817
1.1919	14.12	15000	1.1792	5.4	9.0722	2.9343	1.1887	0.4748
1.1669	18.83	20000	1.1743	5.02	8.5611	2.9273	1.1796	0.4618