DINOv2-largeオープンソースビジュアルモデル - 大量の画像から堅牢なビジュアル特徴を無料で抽出

ホーム

Dinov2 Large

facebookによって開発

DINOv2手法で訓練されたビジョンTransformerモデル。自己教師あり学習により大量の画像データから頑健な視覚特徴を抽出

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #自己教師あり視覚特徴 #グローバル画像表現 #Transformerアーキテクチャ

ダウンロード数 558.78k

リリース時間 : 7/17/2023

モデル概要

このモデルはTransformerエンコーダアーキテクチャを採用し、自己教師あり方式で事前訓練されており、画像の内在的表現を学習可能。様々なコンピュータビジョン下流タスクの特徴抽出に適応

モデル特徴

自己教師あり学習

人手によるアノテーションデータが不要で、大量の画像から自己教師あり方式で特徴を学習

頑健な視覚特徴

多様な下流タスクに適用可能な汎用視覚特徴を抽出可能

Transformerアーキテクチャ

先進的なTransformerエンコーダ構造に基づき、画像データを効果的に処理

モデル能力

画像特徴抽出

視覚表現学習

コンピュータビジョンタスクの基盤モデル

使用事例

コンピュータビジョン

画像分類

事前訓練モデルに分類ヘッドを追加してファインチューニング

物体検出

特徴抽出器として物体検出タスクに利用

画像類似度計算

抽出した特徴ベクトルを用いて画像類似度を計算

🚀 Vision Transformer (大規模モデル) をDINOv2で学習

DINOv2手法を用いて学習されたVision Transformer (ViT) モデルです。この手法は、Oquabらによる論文 DINOv2: Learning Robust Visual Features without Supervision で紹介され、最初はこのリポジトリで公開されました。

免責事項: DINOv2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されました。

📚 ドキュメント

モデルの説明

Vision Transformer (ViT) は、自己教師付き学習によって大量の画像コレクションで事前学習されたトランスフォーマーエンコーダモデル（BERTのような）です。

画像は固定サイズのパッチのシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンを追加します。トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、絶対位置埋め込みも追加します。

このモデルには、微調整されたヘッドは含まれていません。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して、標準的な分類器を学習することができます。通常、[CLS] トークンの上に線形レイヤーを配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

想定される用途と制限

生のモデルを特徴抽出に使用することができます。関心のあるタスクで微調整されたバージョンを探すには、モデルハブを参照してください。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, AutoModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-large')
model = AutoModel.from_pretrained('facebook/dinov2-large')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeXエントリと引用情報

misc{oquab2023dinov2,
      title={DINOv2: Learning Robust Visual Features without Supervision}, 
      author={Maxime Oquab and Timothée Darcet and Théo Moutakanni and Huy Vo and Marc Szafraniec and Vasil Khalidov and Pierre Fernandez and Daniel Haziza and Francisco Massa and Alaaeldin El-Nouby and Mahmoud Assran and Nicolas Ballas and Wojciech Galuba and Russell Howes and Po-Yao Huang and Shang-Wen Li and Ishan Misra and Michael Rabbat and Vasu Sharma and Gabriel Synnaeve and Hu Xu and Hervé Jegou and Julien Mairal and Patrick Labatut and Armand Joulin and Piotr Bojanowski},
      year={2023},
      eprint={2304.07193},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}