V

Vit Gpt2 Coco En

由ydshieh開發
基於ViT和GPT2架構的圖像轉文本模型,能夠為輸入圖像生成合理的英文描述
下載量 5,177
發布時間 : 3/2/2022

模型概述

這是一個基於VisionEncoderDecoder框架的概念驗證模型,使用ViT作為視覺編碼器,GPT2作為文本解碼器,在COCO數據集上微調,用於圖像描述生成任務

模型特點

多框架支持
同時提供PyTorch和Flax(JAX)兩種實現版本
端到端生成
直接從圖像像素值生成自然語言描述,無需中間處理步驟
輕量級應用
作為概念驗證模型,相對輕量且易於部署

模型能力

圖像理解
自然語言生成
視覺-語言轉換

使用案例

內容生成
圖像自動標註
為圖片庫中的圖像自動生成描述性文字
生成類似'一隻貓躺在沙發上,旁邊是另一隻貓'的描述
無障礙輔助
為視障用戶提供圖像內容描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase