vit-base-patch16-224-distilgpt2開源圖像描述模型 - 免費將圖像轉換為文本描述

Vit Base Patch16 224 Distilgpt2

由tarekziade開發

DistilViT 是一個基於視覺Transformer(ViT)和蒸餾版GPT-2的圖像描述生成模型，能夠將圖像轉換為文本描述。

下載量 17

發布時間 : 6/19/2024

模型概述

該模型結合了視覺Transformer的圖像編碼能力和蒸餾版GPT-2的文本生成能力，專門用於圖像轉文本任務，可以生成圖像的描述性文字。

高效圖像理解

採用VIT模型作為圖像編碼器，能夠有效理解圖像內容

輕量級文本生成

使用蒸餾版GPT-2作為文本解碼器，在保持性能的同時減少模型大小

多數據集訓練

在Flickr30k和COCO 2017等多個數據集上進行訓練，提高泛化能力

圖像內容理解

圖像描述生成

視覺-語言轉換

輔助技術

為視障人士生成圖像描述

自動為圖像生成文字描述，幫助視障人士理解圖像內容

內容管理

自動圖像標註

為大量圖像自動生成描述性標籤，便於搜索和管理

屬性	詳情
模型類型	distilvit
訓練數據	Flickr30k、COCO 2017、Flickr30k debiased、DocOrNot、Alt Text Validation
評估指標	ROUGE - 1：43.006；ROUGE - 2：16.9939；ROUGE - L：38.8923；ROUGE - LSUM：38.8877；loss：0.19939416646957397；gen_len：11.327256736227712