T

Test Push

由tarekziade開發
distilvit是一個基於VIT圖像編碼器和蒸餾版GPT-2文本解碼器的圖像轉文本模型,能夠生成圖像的文本描述。
下載量 17
發布時間 : 6/21/2024

模型概述

該模型主要用於圖像描述生成任務,能夠將輸入的圖像轉換為對應的文本描述。基於VIT和蒸餾GPT-2架構,在Flickr30k和COCO等數據集上進行了微調。

模型特點

高效架構
採用蒸餾版GPT-2作為文本解碼器,在保持性能的同時減少模型複雜度
多數據集訓練
在Flickr30k和COCO等多個圖像描述數據集上進行訓練和微調
去偏處理
使用了去偏版的Flickr30k數據集進行訓練,減少模型偏見

模型能力

圖像描述生成
圖像轉文本
視覺語言理解

使用案例

圖像理解
自動圖像標註
為圖片自動生成描述性文字
ROUGE-1得分43.006
輔助視覺障礙人士
將圖像內容轉換為語音描述
內容管理
圖像搜索引擎優化
為圖像自動生成元數據
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase