N

Nat Base In1k 224

由shi-labs開發
NAT-Base是基於ImageNet-1K訓練的視覺Transformer模型,採用鄰域注意力機制進行圖像分類。
下載量 6
發布時間 : 11/18/2022

模型概述

NAT是一種基於鄰域注意力(NA)的分層視覺Transformer,專門用於圖像分類任務。鄰域注意力是一種受限的自注意力機制,每個標記的感受野僅限於其最近的相鄰像素,具有高度靈活性並保持平移等變性。

模型特點

鄰域注意力機制
採用滑動窗口注意力模式,每個標記的感受野僅限於其最近的相鄰像素,保持平移等變性。
高效實現
通過NATTEN庫在PyTorch中高效實現鄰域注意力機制。
分層結構
採用分層視覺Transformer架構,適合處理不同尺度的視覺特徵。

模型能力

圖像分類
視覺特徵提取

使用案例

計算機視覺
ImageNet圖像分類
將圖像分類為1,000個ImageNet類別之一。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase