Distilvit開源圖像轉文本模型 - 免費部署精準生成圖像文本描述

Test Push

由tarekziade開發

distilvit是一個基於VIT圖像編碼器和蒸餾版GPT-2文本解碼器的圖像轉文本模型，能夠生成圖像的文本描述。

下載量 17

發布時間 : 6/21/2024

模型概述

該模型主要用於圖像描述生成任務，能夠將輸入的圖像轉換為對應的文本描述。基於VIT和蒸餾GPT-2架構，在Flickr30k和COCO等數據集上進行了微調。

高效架構

採用蒸餾版GPT-2作為文本解碼器，在保持性能的同時減少模型複雜度

多數據集訓練

在Flickr30k和COCO等多個圖像描述數據集上進行訓練和微調

去偏處理

使用了去偏版的Flickr30k數據集進行訓練，減少模型偏見

圖像描述生成

圖像轉文本

視覺語言理解

圖像理解

自動圖像標註

為圖片自動生成描述性文字

ROUGE-1得分43.006

輔助視覺障礙人士

將圖像內容轉換為語音描述

內容管理

圖像搜索引擎優化

為圖像自動生成元數據

屬性	詳情
模型類型	圖像到文本（image - to - text）、圖像描述生成（image - captioning）
訓練數據	Flickr30k（https://huggingface.co/datasets/nlphuji/flickr30k ）、COCO 2017（https://cocodataset.org ）、Flickr30k debiased（https://huggingface.co/datasets/Mozilla/flickr30k-transformed-captions ）、DocOrNot（https://huggingface.co/datasets/Mozilla/docornot ）
評估指標	ROUGE - 1、ROUGE - 2、ROUGE - L、ROUGE - LSUM、loss、gen_len