ConvNext - Base - 224オープンソース画像分類モデル - 無料でデプロイして画像のカテゴリを正確に識別

ホーム

Convnext Base 224

facebookによって開発

ConvNeXTは純粋な畳み込みモデルで、ビジュアルTransformerからインスピレーションを得て設計され、ImageNet - 1kデータセットで訓練され、画像分類タスクに使用されます。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #純粋な畳み込みアーキテクチャ #画像分類 #高精度分類

ダウンロード数 2,756

リリース時間 : 3/2/2022

モデル概要

ConvNeXTは現代的な畳み込みニューラルネットワークで、Swin Transformerのアイデアを借りてResNetを改造し、ビジュアルTransformerよりも性能が優れていると主張されています。

モデル特徴

現代的な畳み込み設計

ビジュアルTransformerの利点を借りて、従来の畳み込みネットワークを現代化改造します。

高性能

画像分類タスクでビジュアルTransformerよりも性能が優れていると主張されています。

純粋な畳み込みアーキテクチャ

純粋な畳み込み構造を維持しながら、Transformerと同等の性能を得ます。

モデル能力

画像分類

ビジュアル特徴抽出

使用事例

コンピュータビジョン

汎用画像分類

画像をImageNetの1,000のカテゴリに分類します。

物体認識

画像内の物体のカテゴリを識別します。

🚀 ConvNeXT（ベースサイズモデル）

ConvNeXTは、画像分類分野で優れた性能を発揮するモデルです。このモデルは畳み込みニューラルネットワーク（CNN）アーキテクチャに基づき、ビジュアルトランスフォーマーの設計理念を取り入れ、ImageNet - 1kデータセットで訓練されており、画像を効率的かつ正確に分類することができます。

🚀 クイックスタート

ConvNeXTは純粋な畳み込みモデル（ConvNet）で、ビジュアルトランスフォーマーの設計に触発されており、ビジュアルトランスフォーマーよりも優れた性能を誇っています。著者はResNetをベースに、Swin Transformerを参考にしてその設計を「現代化」しました。

モデル画像

✨ 主な機能

ビジュアルトランスフォーマーに触発され、従来の畳み込みネットワークの設計を現代化しました。
ImageNet - 1kデータセットで224x224の解像度で訓練されています。
ビジュアルトランスフォーマーよりも性能が優れていると主張されています。

📦 インストール

ドキュメントに具体的なインストール手順は記載されていません。関連するライブラリ（例：transformers、torch、datasets）の公式インストールガイドを参照してインストールしてください。

💻 使用例

基本的な使用法

以下は、このモデルを使用してCOCO 2017データセットの画像を1000のImageNetクラスのいずれかに分類する方法の例です。

from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

processor = ConvNextImageProcessor.from_pretrained("facebook/convnext-base-224")
model = ConvNextForImageClassification.from_pretrained("facebook/convnext-base-224")

inputs = processor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# モデルは1000のImageNetクラスのいずれかを予測します
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label]),

高度な使用法

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

想定用途と制限

元のモデルを使用して画像分類を行うことができます。関心のあるタスクに合わせて微調整されたバージョンを探すには、モデルセンターを参照してください。

引用情報

@article{DBLP:journals/corr/abs-2201-03545,
  author    = {Zhuang Liu and
               Hanzi Mao and
               Chao{-}Yuan Wu and
               Christoph Feichtenhofer and
               Trevor Darrell and
               Saining Xie},
  title     = {A ConvNet for the 2020s},
  journal   = {CoRR},
  volume    = {abs/2201.03545},
  year      = {2022},
  url       = {https://arxiv.org/abs/2201.03545},
  eprinttype = {arXiv},
  eprint    = {2201.03545},
  timestamp = {Thu, 20 Jan 2022 14:21:35 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2201-03545.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

免責事項

ConvNeXTを公開したチームはこのモデルのモデルカードを作成していません。このモデルカードはHugging Faceチームによって作成されています。

情報テーブル

属性	詳細
モデルタイプ	純粋な畳み込みモデル（ConvNet）
訓練データ	ImageNet - 1k
論文	A ConvNet for the 2020s
元のリポジトリ	this repository