dino-vitb16オープンソースビジョンモデル - 自己教師あり手法に基づく画像認識処理

ホーム

Dino Vitb16

facebookによって開発

DINO自己教師あり手法で訓練された視覚Transformerモデルで、ViTアーキテクチャを採用し、ImageNet-1kデータセットで事前学習されています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #自己教師あり視覚Transformer #画像パッチ埋め込み #ImageNet事前学習

ダウンロード数 122.46k

リリース時間 : 3/2/2022

モデル概要

このモデルは自己教師あり学習によりImageNet-1kデータセットで事前訓練されており、下流の視覚タスクに使用できる画像特徴を抽出できます。モデルは16×16画像パッチ分割方式を採用し、ファインチューニング用のヘッドは含まれていません。

モデル特徴

自己教師あり学習

DINO手法を用いた自己教師あり訓練を行い、人手による注釈データなしで画像特徴を学習可能

ViTアーキテクチャ

Transformerエンコーダアーキテクチャに基づいて画像を処理し、16×16ピクセルのパッチに分割してシーケンシャルに処理

汎用特徴抽出

事前訓練モデルは汎用的な画像特徴を抽出でき、様々な下流視覚タスクに適用可能

モデル能力

画像特徴抽出

画像分類（分類ヘッドの追加が必要）

視覚表現学習

使用事例

コンピュータビジョン

画像分類

モデル上部に線形層を追加することで、画像分類タスクに使用可能

特徴抽出

物体検出やセグメンテーションなどの下流タスクに使用する画像特徴を抽出

🚀 ビジョントランスフォーマー (ベースサイズのモデル、パッチサイズ16) をDINOを使用して学習

DINO手法を用いて学習されたビジョントランスフォーマー (ViT) モデルです。このモデルは、Mathilde Caron, Hugo Touvron, Ishan Misra, Hervé Jégou, Julien Mairal, Piotr Bojanowski, Armand Joulinによる論文 Emerging Properties in Self-Supervised Vision Transformers で紹介され、このリポジトリで最初に公開されました。

免責事項: DINOを公開したチームはこのモデルについてモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

🚀 クイックスタート

このモデルは、DINO手法を用いて学習されたビジョントランスフォーマー (ViT) です。画像の内部表現を学習し、下流タスクの特徴抽出に利用できます。

✨ 主な機能

自己教師付き学習により、画像の内部表現を学習します。
下流タスクの特徴抽出に利用できます。
画像分類タスクに使用できます。

📚 ドキュメント

モデルの説明

ビジョントランスフォーマー (ViT) は、自己教師付き学習により、大量の画像コレクション（ImageNet-1k）で事前学習されたトランスフォーマーエンコーダモデル（BERTのような）です。画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みされます。分類タスクに使用するために、シーケンスの先頭に [CLS] トークンが追加されます。また、シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みが追加されます。

なお、このモデルには微調整されたヘッドは含まれていません。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクの特徴抽出に利用できます。例えば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を学習できます。通常、[CLS] トークンの最後の隠れ状態は画像全体の表現と見なせるため、このトークンの上に線形レイヤーを配置します。

想定される用途と制限

生のモデルを画像分類に使用できます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使用方法は次の通りです。

from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('facebook/dino-vitb16')
model = ViTModel.from_pretrained('facebook/dino-vitb16')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2104-14294,
  author    = {Mathilde Caron and
               Hugo Touvron and
               Ishan Misra and
               Herv{\'{e}} J{\'{e}}gou and
               Julien Mairal and
               Piotr Bojanowski and
               Armand Joulin},
  title     = {Emerging Properties in Self-Supervised Vision Transformers},
  journal   = {CoRR},
  volume    = {abs/2104.14294},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.14294},
  archivePrefix = {arXiv},
  eprint    = {2104.14294},
  timestamp = {Tue, 04 May 2021 15:12:43 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-14294.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}