Distilvit开源图像转文本模型 - 免费部署精准生成图像文本描述

Test Push

由 tarekziade 开发

distilvit是一个基于VIT图像编码器和蒸馏版GPT-2文本解码器的图像转文本模型，能够生成图像的文本描述。

下载量 17

发布时间 : 6/21/2024

模型简介

该模型主要用于图像描述生成任务，能够将输入的图像转换为对应的文本描述。基于VIT和蒸馏GPT-2架构，在Flickr30k和COCO等数据集上进行了微调。

高效架构

采用蒸馏版GPT-2作为文本解码器，在保持性能的同时减少模型复杂度

多数据集训练

在Flickr30k和COCO等多个图像描述数据集上进行训练和微调

去偏处理

使用了去偏版的Flickr30k数据集进行训练，减少模型偏见

图像描述生成

图像转文本

视觉语言理解

图像理解

自动图像标注

为图片自动生成描述性文字

ROUGE-1得分43.006

辅助视觉障碍人士

将图像内容转换为语音描述

内容管理

图像搜索引擎优化

为图像自动生成元数据

属性	详情
模型类型	图像到文本（image - to - text）、图像描述生成（image - captioning）
训练数据	Flickr30k（https://huggingface.co/datasets/nlphuji/flickr30k ）、COCO 2017（https://cocodataset.org ）、Flickr30k debiased（https://huggingface.co/datasets/Mozilla/flickr30k-transformed-captions ）、DocOrNot（https://huggingface.co/datasets/Mozilla/docornot ）
评估指标	ROUGE - 1、ROUGE - 2、ROUGE - L、ROUGE - LSUM、loss、gen_len