🚀 NAT (mini variant)
NAT-Miniは、解像度224x224のImageNet-1Kで学習されたモデルです。このモデルは、Hassaniらによる論文 Neighborhood Attention Transformer で紹介され、このリポジトリ で最初に公開されました。
🚀 クイックスタート
NAT-Miniは画像分類タスクに使用できます。詳細な使用方法や微調整済みのモデルは、モデルハブ を参照してください。
✨ 主な機能
- NATは、Neighborhood Attention (NA) に基づく階層型ビジョントランスフォーマーです。
- Neighborhood Attentionは、各トークンの受容野が最も近い隣接ピクセルに制限された制限的な自己注意パターンです。
- NAはスライディングウィンドウ型の注意パターンであり、非常に柔軟で並進等変性を維持します。
- NAは、PyTorchの拡張 NATTEN を通じて実装されています。
📦 インストール
このモデルは、transformers
の他に NATTEN パッケージが必要です。
Linuxの場合
shi-labs.com/natten を参照して、事前にコンパイルされたバイナリを使用してインストールすることができます(正しいホイールURLを取得するために、torchビルドを選択してください)。
その他の場合
pip install natten
を使用してデバイス上でコンパイルすることもできますが、これには数分かかる場合があります。Macユーザーは後者のオプションのみ利用可能です(事前にコンパイルされたバイナリはありません)。
詳細な情報は NATTENのGitHub を参照してください。
💻 使用例
基本的な使用法
以下は、COCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法の例です。
from transformers import AutoImageProcessor, NatForImageClassification
from PIL import Image
import requests
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = AutoImageProcessor.from_pretrained("shi-labs/nat-mini-in1k-224")
model = NatForImageClassification.from_pretrained("shi-labs/nat-mini-in1k-224")
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
より多くの使用例については、ドキュメント を参照してください。
📚 ドキュメント
モデルの説明
NATは、Neighborhood Attention (NA) に基づく階層型ビジョントランスフォーマーです。Neighborhood Attentionは、各トークンの受容野が最も近い隣接ピクセルに制限された制限的な自己注意パターンです。NAはスライディングウィンドウ型の注意パターンであり、非常に柔軟で並進等変性を維持します。
NAは、PyTorchの拡張 NATTEN を通じて実装されています。

Source
想定される用途と制限
このモデルは画像分類に使用できます。関心のあるタスクに関する微調整済みのバージョンについては、モデルハブ を参照してください。
BibTeXエントリと引用情報
@article{hassani2022neighborhood,
title = {Neighborhood Attention Transformer},
author = {Ali Hassani and Steven Walton and Jiachen Li and Shen Li and Humphrey Shi},
year = 2022,
url = {https://arxiv.org/abs/2204.07143},
eprint = {2204.07143},
archiveprefix = {arXiv},
primaryclass = {cs.CV}
}
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
情報テーブル
| 属性 | 详情 |
|------|------|
| モデルタイプ | NAT (mini variant) |
| 学習データ | ImageNet-1K |
ウィジェット