DiNAT-Mini開源視覺模型 - 免費部署助力高效圖像分類任務

首頁

Dinat Mini In1k 224

由shi-labs開發

DiNAT-Mini是基於鄰域注意力機制的分層視覺Transformer模型，專為圖像分類任務設計。

圖像分類

Transformers

開源協議:MIT #滑動窗口注意力 #圖像分類 #鄰域注意力

下載量 462

發布時間 : 11/14/2022

模型概述

該模型採用擴張鄰域注意力機制(DiNA)，在ImageNet-1K數據集上訓練完成，適用於224x224分辨率的圖像分類任務。

模型特點

鄰域注意力機制

採用受限的自注意力機制，每個標記的感受野僅限於其最近的相鄰像素，保持平移等變性。

擴張鄰域注意力

通過擴張變體(DiNA)擴展感受野，形成靈活的滑動窗口注意力模式。

分層結構

採用分層視覺Transformer架構，適合處理不同尺度的視覺特徵。

模型能力

圖像分類

視覺特徵提取

使用案例

計算機視覺

ImageNet圖像分類

將輸入圖像分類為1000個ImageNet類別之一

🚀 DiNAT (mini variant)

DiNAT-Mini 是在 ImageNet-1K 數據集上以 224x224 分辨率進行訓練的模型。它由 Hassani 等人在論文 Dilated Neighborhood Attention Transformer 中提出，並首次在此倉庫中發佈。該模型可用於圖像分類任務，為相關領域的研究和應用提供了有力支持。

✨ 主要特性

基於 Neighborhood Attention：DiNAT 是一種基於鄰域注意力（Neighborhood Attention，NA）及其擴張變體（DiNA）的分層視覺變換器。鄰域注意力是一種受限的自注意力模式，每個令牌的感受野僅限於其最近的相鄰像素。
滑動窗口注意力模式：NA 和 DiNA 屬於滑動窗口注意力模式，具有高度的靈活性，並能保持平移等變性。
PyTorch 實現：通過 NATTEN 包提供了 PyTorch 實現。

📦 安裝指南

除了 transformers 庫，此模型還需要 NATTEN 包。

Linux 用戶：可參考 shi-labs.com/natten 上的說明，使用預編譯的二進制文件進行安裝（只需選擇合適的 PyTorch 版本以獲取正確的 wheel URL）。
其他用戶：也可以使用 pip install natten 在本地設備上進行編譯安裝，這可能需要幾分鐘時間。Mac 用戶只能選擇此方式（沒有預編譯的二進制文件）。

更多信息請參考 NATTEN 的 GitHub 倉庫。

💻 使用示例

基礎用法

以下是如何使用該模型將 COCO 2017 數據集中的圖像分類為 1000 個 ImageNet 類別之一的示例：

from transformers import AutoImageProcessor, DinatForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoImageProcessor.from_pretrained("shi-labs/dinat-mini-in1k-224")
model = DinatForImageClassification.from_pretrained("shi-labs/dinat-mini-in1k-224")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

更多示例請參考文檔。

📚 詳細文檔

模型描述

DiNAT 是一種基於鄰域注意力（NA）及其擴張變體（DiNA）的分層視覺變換器。鄰域注意力是一種受限的自注意力模式，其中每個令牌的感受野僅限於其最近的相鄰像素。因此，NA 和 DiNA 是滑動窗口注意力模式，具有高度的靈活性，並能保持平移等變性。

模型圖像來源

預期用途和限制

可以使用原始模型進行圖像分類。請查看模型中心以查找針對你感興趣的任務進行微調的版本。

BibTeX 引用和引用信息

@article{hassani2022dilated,
    title        = {Dilated Neighborhood Attention Transformer},
    author       = {Ali Hassani and Humphrey Shi},
    year         = 2022,
    url          = {https://arxiv.org/abs/2209.15001},
    eprint       = {2209.15001},
    archiveprefix = {arXiv},
    primaryclass = {cs.CV}
}