V

Vision Perceiver Learned

由deepmind開發
基於ImageNet預訓練的通用視覺感知器模型,採用學習型位置嵌入處理圖像輸入
下載量 1,894
發布時間 : 3/2/2022

模型概述

該模型是一種可應用於任何模態的Transformer編碼器,特別針對圖像分類任務設計,能夠直接從像素值學習圖像表示

模型特點

模態無關架構
可應用於文本、圖像、音頻、視頻等多種數據模態
高效注意力機制
使用潛在向量降低計算複雜度,使注意力機制不受輸入大小限制
學習型位置嵌入
僅使用學習的一維位置嵌入,不依賴圖像二維結構的先驗知識
靈活解碼機制
可通過解碼查詢機制將潛在向量解碼為任意大小和語義的輸出

模型能力

圖像分類
特徵提取

使用案例

計算機視覺
圖像分類
對輸入圖像進行1000類別的分類
在ImageNet-1k上達到72.7%的Top-1準確率
特徵提取
提取圖像特徵用於下游任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase