ConvNeXT-tiny-224オープンソース画像認識モデル - Transformerに匹敵する強力な性能！

ホーム

Convnext Tiny 224

facebookによって開発

ConvNeXTは純粋な畳み込みモデルで、ビジュアルトランスフォーマーの設計からインスピレーションを得て、ImageNet-1kデータセットで訓練され、トランスフォーマーを上回る性能を発揮します。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #画像分類 #畳み込み最適化 #軽量級

ダウンロード数 18.67k

リリース時間 : 3/2/2022

モデル概要

ConvNeXTは画像分類タスク向けに設計された最新の畳み込みニューラルネットワークで、ImageNet-1kデータセットで優れた性能を発揮します。

モデル特徴

純粋な畳み込みアーキテクチャ

純粋な畳み込み設計を採用し、トランスフォーマーの計算複雑さを回避します。

モデル能力

画像分類

ビジュアル特徴抽出

使用事例

コンピュータビジョン

物体認識

画像中の物体のカテゴリを識別します。

ImageNet-1kデータセットで優れた性能を発揮します。

画像分類システム

自動化された画像分類システムを構築します。

🚀 ConvNeXT (tinyサイズのモデル)

ConvNeXTは、解像度224x224のImageNet - 1kで学習されたモデルです。Liuらによる論文 A ConvNet for the 2020s で紹介され、このリポジトリで最初に公開されました。

🚀 クイックスタート

ConvNeXTは、Vision Transformersの設計にインスパイアされた純粋な畳み込みモデル（ConvNet）で、それらを上回る性能を主張しています。著者らはResNetから始め、Swin Transformerを参考にしてその設計を「近代化」しました。

モデル画像

✨ 主な機能

画像分類に使用できる純粋な畳み込みモデルです。
Vision Transformersの設計にインスパイアされ、それらを上回る性能を目指しています。

📦 インストール

このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを使用してインストールできます。

pip install transformers datasets torch

💻 使用例

基本的な使用法

以下は、このモデルを使用してCOCO 2017データセットの画像を1,000のImageNetクラスのいずれかに分類する方法です。

from transformers import ConvNextImageProcessor, ConvNextForImageClassification
import torch
from datasets import load_dataset

dataset = load_dataset("huggingface/cats-image")
image = dataset["test"]["image"][0]

processor = ConvNextImageProcessor.from_pretrained("facebook/convnext-tiny-224")
model = ConvNextForImageClassification.from_pretrained("facebook/convnext-tiny-224")

inputs = processor(image, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

# モデルは1000のImageNetクラスのいずれかを予測します
predicted_label = logits.argmax(-1).item()
print(model.config.id2label[predicted_label])

より多くのコード例については、ドキュメントを参照してください。

📚 ドキュメント

このモデルは画像分類に使用できます。モデルハブを参照して、関心のあるタスクで微調整されたバージョンを探すことができます。

想定される用途と制限

このモデルは画像分類に使用できますが、特定のタスクに最適化された微調整バージョンを探すことをおすすめします。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2201-03545,
  author    = {Zhuang Liu and
               Hanzi Mao and
               Chao{-}Yuan Wu and
               Christoph Feichtenhofer and
               Trevor Darrell and
               Saining Xie},
  title     = {A ConvNet for the 2020s},
  journal   = {CoRR},
  volume    = {abs/2201.03545},
  year      = {2022},
  url       = {https://arxiv.org/abs/2201.03545},
  eprinttype = {arXiv},
  eprint    = {2201.03545},
  timestamp = {Thu, 20 Jan 2022 14:21:35 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2201-03545.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

```markdown
| 属性 | 详情 |
|------|------|
| モデルタイプ | 画像分類用の畳み込みニューラルネットワーク |
| 学習データ | ImageNet - 1k |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご