dino-vits16オープンソースビジュアルモデル - 無料で使用して画像特徴の効率的な抽出を実現

ホーム

Dino Vits16

facebookによって開発

DINO手法に基づく自己教師あり学習で訓練された視覚Transformerモデル、画像特徴抽出に適しています

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #自己教師あり学習 #画像パッチ処理 #視覚的特徴抽出

ダウンロード数 47.32k

リリース時間 : 3/2/2022

モデル概要

この視覚TransformerモデルはImageNet-1kデータセットで自己教師あり方式で事前学習されており、下流タスク向けに画像特徴を抽出できます

モデル特徴

自己教師あり学習

DINO手法を用いた自己教師あり学習を採用、人手による注釈データが不要です

画像パッチ処理

画像を16x16ピクセルのパッチに分割して処理します

汎用特徴抽出

学習された画像表現は様々な下流視覚タスクに転移可能です

モデル能力

画像特徴抽出

画像分類基盤モデル

視覚的表現学習

使用事例

コンピュータビジョン

画像分類

事前学習モデルに分類ヘッドを追加してファインチューニングします

物体検出

特徴抽出器として物体検出タスクに使用します

🚀 ビジョントランスフォーマー (小型モデル、パッチサイズ16) をDINOを用いて学習

DINO手法を用いて学習されたビジョントランスフォーマー (ViT) モデルです。このモデルは、Mathilde Caron、Hugo Touvron、Ishan Misra、Hervé Jégou、Julien Mairal、Piotr Bojanowski、Armand Joulinによる論文 Emerging Properties in Self-Supervised Vision Transformers で紹介され、このリポジトリで最初に公開されました。

免責事項: DINOを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは、DINO手法を用いて学習されたビジョントランスフォーマー (ViT) です。自己教師付き学習により、大量の画像データから有益な特徴を学習しています。

✨ 主な機能

自己教師付き学習により、大量の画像データから画像の内部表現を学習します。
画像分類などの下流タスクに有用な特徴を抽出することができます。

📚 ドキュメント

モデルの説明

ビジョントランスフォーマー (ViT) は、自己教師付き学習により、大量の画像データ（具体的にはImageNet-1k、解像度224x224ピクセル）で事前学習されたトランスフォーマーエンコーダモデル（BERTのような）です。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに入力され、線形埋め込みが行われます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、絶対位置埋め込みも追加されます。

このモデルには微調整されたヘッドは含まれていません。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに有用な特徴を抽出することができます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を学習することができます。通常、[CLS] トークンの最後の隠れ状態は画像全体の表現と見なすことができるため、このトークンの上に線形レイヤーを配置します。

想定される用途と制限

この生モデルを画像分類に使用することができます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('facebook/dino-vits16')
model = ViTModel.from_pretrained('facebook/dino-vits16')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2104-14294,
  author    = {Mathilde Caron and
               Hugo Touvron and
               Ishan Misra and
               Herv{\'{e}} J{\'{e}}gou and
               Julien Mairal and
               Piotr Bojanowski and
               Armand Joulin},
  title     = {Emerging Properties in Self-Supervised Vision Transformers},
  journal   = {CoRR},
  volume    = {abs/2104.14294},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.14294},
  archivePrefix = {arXiv},
  eprint    = {2104.14294},
  timestamp = {Tue, 04 May 2021 15:12:43 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-14294.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}