ConvNeXT-large-224-22k-1kオープンソース画像モデル - 事前学習と微調整による画像タスクの効率的処理を支援

ホーム

Convnext Large 224 22k 1k

facebookによって開発

ConvNeXTは純粋な畳み込みモデルで、視覚Transformerの設計に触発され、ImageNet-22kで事前学習され、ImageNet-1kで微調整され、従来の視覚Transformerよりも優れた性能を発揮します。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #純粋な畳み込みアーキテクチャ #ImageNet分類 #高精度視覚モデル

ダウンロード数 13.71k

リリース時間 : 3/2/2022

モデル概要

ConvNeXTは、画像分類タスクのために設計された現代的な畳み込みニューラルネットワークで、Transformerの設計理念を参考にすることで、従来の畳み込みネットワークの性能を向上させました。

モデル特徴

現代的な畳み込み設計

ResNetを出発点として、Swin Transformerの設計理念を参考にし、従来の畳み込みネットワークを現代化しました。

高性能画像分類

ImageNet-22kで事前学習され、ImageNet-1kで微調整され、優れた画像分類性能を示します。

純粋な畳み込みアーキテクチャ

完全に畳み込み操作に基づいており、注意力メカニズムを使用せずにTransformerと同等の性能を達成できます。

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

汎用画像分類

画像をImageNetの1,000カテゴリのいずれかに分類します

高精度な分類結果

物体認識

画像中の特定の物体（動物、日用品など）を認識します

トラ、ティーポットなどの一般的な物体を正確に認識できます

🚀 ConvNeXT (大型モデル)

ConvNeXTモデルは、ImageNet - 22kで事前学習され、解像度224x224のImageNet - 1kで微調整されています。画像分類タスクに適したモデルです。

🚀 クイックスタート

ConvNeXTは、Vision Transformersの設計にインスパイアされた純粋な畳み込みモデル（ConvNet）で、それらを上回る性能を主張しています。著者らはResNetをベースに、Swin Transformerを参考にしてその設計を「現代化」しました。

モデル画像

✨ 主な機能

画像分類タスクに適用可能です。
Vision Transformersにインスパイアされた設計で、高い性能を発揮します。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドでインストールできます。

pip install transformers torch datasets

💻 使用例

基本的な使用法

ここでは、COCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法を示します。

from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

processor = ConvNextImageProcessor.from_pretrained("facebook/convnext-large-224-22k-1k")
model = ConvNextForImageClassification.from_pretrained("facebook/convnext-large-224-22k-1k")

inputs = processor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# モデルが1kのImageNetクラスのいずれかを予測します
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label]),

高度な使用法

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

想定される使用法と制限

このモデルは画像分類に使用できます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2201-03545,
  author    = {Zhuang Liu and
               Hanzi Mao and
               Chao{-}Yuan Wu and
               Christoph Feichtenhofer and
               Trevor Darrell and
               Saining Xie},
  title     = {A ConvNet for the 2020s},
  journal   = {CoRR},
  volume    = {abs/2201.03545},
  year      = {2022},
  url       = {https://arxiv.org/abs/2201.03545},
  eprinttype = {arXiv},
  eprint    = {2201.03545},
  timestamp = {Thu, 20 Jan 2022 14:21:35 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2201-03545.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}