V

Vilt B32 Mlm

由dandelin開發
ViLT是一種視覺與語言Transformer模型,在GCC+SBU+COCO+VG數據集上進行了預訓練,專注於圖像和文本的聯合理解任務。
下載量 7,761
發布時間 : 3/2/2022

模型概述

該模型通過Transformer架構處理視覺和語言信息,無需卷積或區域監督,適用於圖像和文本的聯合理解任務。

模型特點

無需卷積或區域監督
模型直接處理原始圖像和文本輸入,不依賴卷積神經網絡或區域監督。
聯合視覺語言理解
能夠同時處理圖像和文本信息,理解兩者之間的關係。
基於Transformer架構
採用現代Transformer架構,有效處理多模態輸入。

模型能力

圖像理解
文本理解
多模態表示學習
掩碼語言建模

使用案例

多模態理解
圖像描述生成
根據圖像內容生成或補全文本描述
視覺問答
回答與圖像內容相關的問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase