V

Vitgpt2 Vizwiz

由gagan3012開發
基於ViT-GPT2架構的視覺-語言模型,用於圖像轉文本任務
下載量 24
發布時間 : 3/2/2022

模型概述

該模型結合視覺Transformer(ViT)和GPT-2架構,能夠將圖像內容轉換為描述性文本,適用於視覺問答和圖像描述生成任務

模型特點

多模態理解
能夠同時處理視覺和語言信息,實現圖像到文本的轉換
端到端訓練
採用聯合訓練方式優化視覺和語言組件
高效微調
在VizWiz數據集上微調,優化了視覺問答性能

模型能力

圖像描述生成
視覺問答
多模態理解

使用案例

輔助技術
視覺輔助
為視障人士提供圖像內容描述
內容生成
自動圖像標註
為圖像庫生成自動描述標籤
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase