swin-small-patch4-window7-224オープンソース画像分類モデル - 無料でデプロイして画像を迅速かつ正確に分類

ホーム

Swin Small Patch4 Window7 224

microsoftによって開発

Swin Transformerは階層型ウィンドウに基づく視覚Transformerモデルで、画像分類タスク向けに設計されており、計算複雑度は入力画像サイズに対して線形関係にあります。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #階層型視覚Transformer #局所ウィンドウアテンション #画像分類バックボーンネットワーク

ダウンロード数 2,028

リリース時間 : 3/2/2022

モデル概要

このモデルはImageNet-1kデータセットで224x224解像度で訓練されており、画像分類や密な認識タスクの汎用バックボーンネットワークとして使用できます。

モデル特徴

階層型ウィンドウアテンション機構

局所ウィンドウで自己アテンションを計算することで、計算複雑度を大幅に低減し、入力画像サイズに対して線形関係を実現。

階層的特徴マップ

画像パッチを統合して階層的特徴マップを構築し、様々なスケールの視覚情報処理に適しています。

効率的な計算

従来の視覚Transformerで行われていたグローバルな自己アテンション計算に比べ、計算効率が向上しています。

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

ImageNet画像分類

入力画像を1000のImageNetカテゴリのいずれかに分類

ImageNet-1kデータセットで訓練

密な認識タスク

物体検出やセマンティックセグメンテーションなどのタスクをサポートするバックボーンネットワークとして

🚀 Swin Transformer (小型モデル)

Swin Transformerは、解像度224x224のImageNet - 1kデータセットで学習されたモデルです。画像分類や密集認識タスクに強力なサポートを提供し、画像データを効果的に処理することができます。

🚀 クイックスタート

Swin Transformerモデルは画像分類タスクに使用できます。オリジナルのモデルを使用して画像分類を行うことも、モデルセンターで自分が興味のあるタスクに対して微調整されたバージョンを見つけることもできます。

以下は、このモデルを使用してCOCO 2017データセットの画像を1000のImageNetカテゴリの1つに分類するサンプルコードです。

from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-small-patch4-window7-224")
model = SwinForImageClassification.from_pretrained("microsoft/swin-small-patch4-window7-224")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# モデルは1000のImageNetカテゴリの1つを予測します
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

より多くのコード例については、ドキュメントを参照してください。

✨ 主な機能

階層的特徴マップ：Swin Transformerは、より深い層で画像パッチ（灰色部分）を結合することで、階層的特徴マップを構築します。
線形計算量：各局所ウィンドウ（赤色部分）内でのみ自己注意を計算するため、入力画像サイズに対して線形の計算量を持ちます。これにより、画像分類や密集認識タスクの汎用バックボーンネットワークとして機能します。
比較優位性：以前のビジュアルTransformerと比較して、異なる解像度の特徴マップを生成でき、グローバル自己注意計算に伴う2次の計算量を回避します。

モデル画像出典

💻 使用例

基本的な使用法

from transformers import AutoFeatureExtractor, SwinForImageClassification
from PIL import Image
import requests

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = AutoFeatureExtractor.from_pretrained("microsoft/swin-small-patch4-window7-224")
model = SwinForImageClassification.from_pretrained("microsoft/swin-small-patch4-window7-224")

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# モデルは1000のImageNetカテゴリの1つを予測します
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

📚 ドキュメント

想定用途と制限

オリジナルのモデルを使用して画像分類を行うことができます。特定のタスクに対して微調整されたバージョンを取得するには、モデルセンターを参照してください。

BibTeX引用と引用情報

@article{DBLP:journals/corr/abs-2103-14030,
  author    = {Ze Liu and
               Yutong Lin and
               Yue Cao and
               Han Hu and
               Yixuan Wei and
               Zheng Zhang and
               Stephen Lin and
               Baining Guo},
  title     = {Swin Transformer: Hierarchical Vision Transformer using Shifted Windows},
  journal   = {CoRR},
  volume    = {abs/2103.14030},
  year      = {2021},
  url       = {https://arxiv.org/abs/2103.14030},
  eprinttype = {arXiv},
  eprint    = {2103.14030},
  timestamp = {Thu, 08 Apr 2021 07:53:26 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2103-14030.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}