dino-vitb8オープンソースビジョンモデル - 無料でデプロイして画像特徴抽出タスクを効率的に行う

ホーム

Dino Vitb8

facebookによって開発

DINO手法による自己教師あり学習で訓練されたVision Transformerモデル、8x8画像パッチ処理を採用、画像特徴抽出タスクに適応

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #自己教師あり学習 #画像パッチ埋め込み #Vision Transformer

ダウンロード数 1,664

リリース時間 : 3/2/2022

モデル概要

このモデルはDINO自己教師あり手法を用いてImageNet-1kデータセットで事前学習されたVision Transformer（ViT）で、主に画像表現学習に使用され、下流の視覚タスクの特徴抽出器として利用可能

モデル特徴

自己教師あり学習

DINO自己教師あり学習手法を採用、人手のアノテーションなしで画像特徴を学習可能

8x8画像パッチ処理

画像を8x8ピクセルのパッチに分割して処理、局所的特徴の捕捉に適している

Transformerアーキテクチャ

Transformerエンコーダーアーキテクチャに基づき、強力な特徴抽出能力を有する

モデル能力

画像特徴抽出

画像表現学習

下流視覚タスクの転移学習

使用事例

コンピュータビジョン

画像分類

事前学習モデルに分類ヘッドを追加してファインチューニング

物体検出

特徴抽出器として物体検出タスクに利用

🚀 ビジョントランスフォーマー (ベースサイズのモデル、パッチサイズ8) をDINOを使用して学習

DINO手法を用いて学習されたビジョントランスフォーマー (ViT) モデルです。このモデルは、Mathilde Caron、Hugo Touvron、Ishan Misra、Hervé Jégou、Julien Mairal、Piotr Bojanowski、Armand Joulinによる論文 Emerging Properties in Self-Supervised Vision Transformers で紹介され、このリポジトリで最初に公開されました。

免責事項: DINOを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、画像分類などの下流タスクに使用できます。以下に使用方法の例を示します。

✨ 主な機能

自己教師付き学習により、大規模な画像コレクション（ImageNet-1k）から画像の内部表現を学習します。
画像を固定サイズのパッチ（8x8）のシーケンスとしてモデルに入力し、線形埋め込みを行います。
分類タスクには、シーケンスの先頭に [CLS] トークンを追加します。

📚 ドキュメント

モデルの説明

ビジョントランスフォーマー (ViT) は、自己教師付き学習により、大規模な画像コレクション（ImageNet-1k）で事前学習されたトランスフォーマーエンコーダモデル（BERTのような）です。画像は解像度224x224ピクセルで学習されます。

画像は固定サイズのパッチ（解像度8x8）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。分類タスクでは、シーケンスの先頭に [CLS] トークンを追加します。また、シーケンスをトランスフォーマーエンコーダのレイヤーに入力する前に、絶対位置埋め込みを追加します。

このモデルには微調整されたヘッドは含まれていません。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに有用な特徴を抽出することができます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を学習することができます。通常、[CLS] トークンの上に線形レイヤーを配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

想定される用途と制限

生のモデルを画像分類に使用することができます。興味のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使用方法は以下の通りです。

基本的な使用法

from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('facebook/dino-vitb8')
model = ViTModel.from_pretrained('facebook/dino-vitb8')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2104-14294,
  author    = {Mathilde Caron and
               Hugo Touvron and
               Ishan Misra and
               Herv{\'{e}} J{\'{e}}gou and
               Julien Mairal and
               Piotr Bojanowski and
               Armand Joulin},
  title     = {Emerging Properties in Self-Supervised Vision Transformers},
  journal   = {CoRR},
  volume    = {abs/2104.14294},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.14294},
  archivePrefix = {arXiv},
  eprint    = {2104.14294},
  timestamp = {Tue, 04 May 2021 15:12:43 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-14294.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}