Dinov2-baseオープンソースビジュアルモデル - 画像特徴の無料抽出でビジュアルアプリケーションをサポート

ホーム

Dinov2 Base

facebookによって開発

DINOv2手法でトレーニングされた視覚Transformerモデル、自己教師あり学習で画像特徴を抽出

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #自己教師あり視覚特徴 #画像意味表現 #Transformerエンコーダー

ダウンロード数 1.9M

リリース時間 : 7/17/2023

モデル概要

このモデルはTransformerアーキテクチャに基づく視覚モデルで、大規模画像データで自己教師あり方式で事前トレーニングされており、下流の視覚タスクをサポートするための画像特徴抽出に使用可能です。

モデル特徴

自己教師あり学習

人手によるアノテーション不要、大規模画像データから自動的に視覚特徴を学習

ロバストな特徴抽出

様々な下流タスクに適用可能な汎用的な画像特徴を抽出可能

Transformerアーキテクチャ

先進的な視覚Transformerアーキテクチャを採用して画像データを処理

モデル能力

画像特徴抽出

視覚表現学習

画像意味理解

使用事例

コンピュータビジョン

画像分類

事前トレーニングモデルに分類ヘッドを追加してファインチューニング

物体検出

特徴抽出器として物体検出タスクに使用

画像類似度計算

抽出した特徴ベクトルを利用して画像類似度を計算

🚀 ビジョントランスフォーマー (DINOv2を使用して学習されたベースサイズのモデル)

DINOv2手法を用いて学習されたビジョントランスフォーマー（ViT）モデルです。このモデルは、Oquabらによる論文 DINOv2: Learning Robust Visual Features without Supervision で紹介され、このリポジトリで最初に公開されました。

免責事項: DINOv2を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

✨ 主な機能

ビジョントランスフォーマー（ViT）は、自己教師付き学習方式で大量の画像コレクションに対して事前学習されたトランスフォーマーエンコーダモデル（BERTのような）です。画像は固定サイズのパッチのシーケンスとしてモデルに入力され、線形埋め込みされます。また、分類タスクに使用するために、シーケンスの先頭に [CLS] トークンが追加されます。トランスフォーマーエンコーダのレイヤーにシーケンスを入力する前に、絶対位置埋め込みも追加されます。

このモデルには微調整されたヘッドは含まれていません。事前学習により、モデルは画像の内部表現を学習し、下流タスクに有用な特徴を抽出するために使用できます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形レイヤーを配置して標準的な分類器を学習することができます。通常、[CLS] トークンの上に線形レイヤーを配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

📚 ドキュメント

想定される使用目的と制限

生のモデルを特徴抽出に使用することができます。関心のあるタスクに対する微調整されたバージョンを探すには、モデルハブを参照してください。

使い方

このモデルの使用方法は次のとおりです。

from transformers import AutoImageProcessor, AutoModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-base')
model = AutoModel.from_pretrained('facebook/dinov2-base')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeXエントリと引用情報

misc{oquab2023dinov2,
      title={DINOv2: Learning Robust Visual Features without Supervision}, 
      author={Maxime Oquab and Timothée Darcet and Théo Moutakanni and Huy Vo and Marc Szafraniec and Vasil Khalidov and Pierre Fernandez and Daniel Haziza and Francisco Massa and Alaaeldin El-Nouby and Mahmoud Assran and Nicolas Ballas and Wojciech Galuba and Russell Howes and Po-Yao Huang and Shang-Wen Li and Ishan Misra and Michael Rabbat and Vasu Sharma and Gabriel Synnaeve and Hu Xu and Hervé Jegou and Julien Mairal and Patrick Labatut and Armand Joulin and Piotr Bojanowski},
      year={2023},
      eprint={2304.07193},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}