V

Vit Base Patch16 224 Distilgpt2

由tarekziade開發
DistilViT 是一個基於視覺Transformer(ViT)和蒸餾版GPT-2的圖像描述生成模型,能夠將圖像轉換為文本描述。
下載量 17
發布時間 : 6/19/2024

模型概述

該模型結合了視覺Transformer的圖像編碼能力和蒸餾版GPT-2的文本生成能力,專門用於圖像轉文本任務,可以生成圖像的描述性文字。

模型特點

高效圖像理解
採用VIT模型作為圖像編碼器,能夠有效理解圖像內容
輕量級文本生成
使用蒸餾版GPT-2作為文本解碼器,在保持性能的同時減少模型大小
多數據集訓練
在Flickr30k和COCO 2017等多個數據集上進行訓練,提高泛化能力

模型能力

圖像內容理解
圖像描述生成
視覺-語言轉換

使用案例

輔助技術
為視障人士生成圖像描述
自動為圖像生成文字描述,幫助視障人士理解圖像內容
內容管理
自動圖像標註
為大量圖像自動生成描述性標籤,便於搜索和管理
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase