NAT - Miniオープンソースビジュアルモデル - ImageNet画像分類タスクに無料で使用できる軽量ツール

ホーム

Nat Mini In1k 224

shi-labsによって開発

NAT-Miniは近傍注意メカニズムに基づく軽量視覚Transformerモデルで、ImageNet画像分類タスク向けに設計されています

画像分類

Transformers

その他オープンソースライセンス:MIT #近傍注意 #画像分類 #軽量Transformer

ダウンロード数 109

リリース時間 : 11/15/2022

モデル概要

NATは近傍注意(Neighborhood Attention)に基づく階層型視覚Transformerで、制限付き自己注意モードにより効率的な画像分類を実現

モデル特徴

近傍注意メカニズム

制限付き自己注意モードを採用し、各トークンの受容野は最近接ピクセルに限定され、平行移動等変性を保持

効率的なアーキテクチャ

階層型視覚Transformer設計で、性能を維持しながら計算複雑性を低減

柔軟な実装

NATTEN拡張ライブラリを通じてPyTorchで実装され、スライディングウィンドウ注意モードをサポート

モデル能力

画像分類

視覚特徴抽出

使用事例

コンピュータビジョン

ImageNet画像分類

画像を1000のImageNetカテゴリに分類

精度指標は未提供

🚀 NAT (mini variant)

NAT-Miniは、解像度224x224のImageNet-1Kで学習されたモデルです。このモデルは、Hassaniらによる論文 Neighborhood Attention Transformer で紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

NAT-Miniは画像分類タスクに使用できます。詳細な使用方法や微調整済みのモデルは、モデルハブを参照してください。

✨ 主な機能

NATは、Neighborhood Attention (NA) に基づく階層型ビジョントランスフォーマーです。
Neighborhood Attentionは、各トークンの受容野が最も近い隣接ピクセルに制限された制限的な自己注意パターンです。
NAはスライディングウィンドウ型の注意パターンであり、非常に柔軟で並進等変性を維持します。
NAは、PyTorchの拡張 NATTEN を通じて実装されています。

📦 インストール

このモデルは、transformers の他に NATTEN パッケージが必要です。

Linuxの場合

shi-labs.com/natten を参照して、事前にコンパイルされたバイナリを使用してインストールすることができます（正しいホイールURLを取得するために、torchビルドを選択してください）。

その他の場合

pip install natten を使用してデバイス上でコンパイルすることもできますが、これには数分かかる場合があります。Macユーザーは後者のオプションのみ利用可能です（事前にコンパイルされたバイナリはありません）。

詳細な情報は NATTENのGitHub を参照してください。

💻 使用例

基本的な使用法

以下は、COCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法の例です。

from transformers import AutoImageProcessor, NatForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoImageProcessor.from_pretrained("shi-labs/nat-mini-in1k-224")
model = NatForImageClassification.from_pretrained("shi-labs/nat-mini-in1k-224")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くの使用例については、ドキュメントを参照してください。

📚 ドキュメント

モデルの説明

NATは、Neighborhood Attention (NA) に基づく階層型ビジョントランスフォーマーです。Neighborhood Attentionは、各トークンの受容野が最も近い隣接ピクセルに制限された制限的な自己注意パターンです。NAはスライディングウィンドウ型の注意パターンであり、非常に柔軟で並進等変性を維持します。

NAは、PyTorchの拡張 NATTEN を通じて実装されています。

model image

Source

想定される用途と制限

このモデルは画像分類に使用できます。関心のあるタスクに関する微調整済みのバージョンについては、モデルハブを参照してください。

BibTeXエントリと引用情報

@article{hassani2022neighborhood,
	title        = {Neighborhood Attention Transformer},
	author       = {Ali Hassani and Steven Walton and Jiachen Li and Shen Li and Humphrey Shi},
	year         = 2022,
	url          = {https://arxiv.org/abs/2204.07143},
	eprint       = {2204.07143},
	archiveprefix = {arXiv},
	primaryclass = {cs.CV}
}

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

情報テーブル

| 属性 | 详情 |
|------|------|
| モデルタイプ | NAT (mini variant) |
| 学習データ | ImageNet-1K |

ウィジェット

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご