V

Vision Perceiver Conv

由deepmind開發
基於ImageNet預訓練的通用視覺感知器模型,採用卷積預處理和Transformer架構,支持圖像分類任務
下載量 7,127
發布時間 : 3/2/2022

模型概述

感知器IO是一種跨模態Transformer模型,通過潛在向量機制實現與輸入尺寸無關的計算效率,特別適合處理高分辨率圖像

模型特點

模態無關架構
採用潛在向量機制,使模型可應用於文本、圖像、音頻等多種數據類型
高效計算
自注意力計算僅依賴固定數量的潛在向量,不受輸入數據規模影響
像素級處理
直接處理原始像素值,無需像ViT那樣進行圖像分塊預處理
靈活解碼
通過解碼查詢機制可輸出任意尺寸和語義的結構化數據

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
圖像分類
對輸入圖像進行1000類別的分類識別
ImageNet-1k上達到82.1% Top-1準確率
特徵提取
提取圖像特徵用於下游任務微調
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase