DINOv2小モデル - オープンソース無料のビジュアル処理、偽影を除去し画像性能を向上

ホーム

Dinov2 With Registers Small Imagenet1k 1 Layer

facebookによって開発

DINOv2でトレーニングされた視覚Transformerモデルで、レジスタトークンを追加することでアテンションメカニズムを改善し、アーティファクトを除去して性能を向上

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #レジスタ強化ViT #自己教師あり視覚特徴 #画像分類バックボーン

ダウンロード数 445

リリース時間 : 12/21/2024

モデル概要

このモデルはDINOv2手法でトレーニングされた視覚Transformerで、レジスタトークンを導入することでアテンションメカニズムを改善し、より明確なアテンションマップを生成し、画像分類性能を向上させます。

モデル特徴

レジスタメカニズム

事前トレーニング段階でレジスタトークンを追加し、アテンションマップのアーティファクトを除去し、モデルの解釈可能性を向上

改善されたアテンションマップ

レジスタメカニズムにより、より明確で解釈可能なアテンションマップを生成

性能向上

従来のViTモデルと比較して、画像分類タスクで優れたパフォーマンスを発揮

モデル能力

画像分類

特徴抽出

アテンションマップ生成

使用事例

コンピュータビジョン

画像分類

画像を1000種類のImageNetカテゴリに分類

下流タスクの特徴抽出

他のコンピュータビジョンタスクに事前トレーニング済み特徴を提供

🚀 Vision Transformer (小型モデル) （DINOv2を使用し、レジスター付きで学習）

このモデルは、Vision Transformer (ViT) モデルで、Darcet らによる論文 Vision Transformers Need Registers で紹介され、このリポジトリで最初に公開されました。

免責事項: レジスター付きの DINOv2 を公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードは Hugging Face チームによって作成されました。

🚀 クイックスタート

このモデルは、DINOv2 を使用して学習された小型の Vision Transformer モデルです。画像の特徴抽出や下流タスクに利用できます。

✨ 主な機能

画像の自己教師付き特徴抽出に適しています。
アテンションマップにアーティファクトがなく、解釈可能です。
パフォーマンスが向上しています。

📚 ドキュメント

モデルの説明

Vision Transformer (ViT) は、トランスフォーマーエンコーダモデル（BERT のような）で、当初は ImageNet での教師付き画像分類に導入されました。

その後、人々は、ラベルを必要とせずに画像の自己教師付き特徴抽出（つまり、意味のある特徴、つまり埋め込みを学習すること）で ViT を非常にうまく機能させる方法を見つけました。ここでの例となる論文には、DINOv2 や MAE があります。

DINOv2 の著者は、ViT のアテンションマップにアーティファクトがあることに気づきました。これは、モデルがいくつかの画像パッチを「レジスター」として使用しているためです。著者は解決策を提案しました：新しいトークン（「レジスター」トークンと呼ばれる）を追加するだけで、これは事前学習中のみ使用し（その後は破棄します）。これにより、

アーティファクトがなくなり、
解釈可能なアテンションマップが得られ、
パフォーマンスが向上します。

drawing

レジスターを使用して学習されたモデルと使用しないモデルのアテンションマップの可視化。元の論文から引用。

このモデルには、微調整されたヘッドは含まれていません。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに役立つ特徴を抽出するために使用できます。たとえば、ラベル付き画像のデータセットがある場合、事前学習されたエンコーダの上に線形層を配置して、標準的な分類器を学習することができます。通常、[CLS] トークンの上に線形層を配置します。このトークンの最後の隠れ状態は、画像全体の表現と見なすことができます。

想定される用途と制限

この生のモデルを使用して、画像を 1000 の可能な ImageNet クラスのいずれかに分類することができます。興味のあるタスクで微調整されたバージョンをモデルハブで探すことができます。

使い方

このモデルの使用方法は次のとおりです。

基本的な使用法

from transformers import AutoImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-with-registers-small-imagenet1k-1-layer')
model = AutoModelForImageClassification.from_pretrained('facebook/dinov2-with-registers-small-imagenet1k-1-layer')

inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
  outputs = model(**inputs)
  logits = outputs.logits

class_idx = outputs.logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[class_idx])

BibTeX 引用

@misc{darcet2024visiontransformersneedregisters,
      title={Vision Transformers Need Registers}, 
      author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
      year={2024},
      eprint={2309.16588},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2309.16588}, 
}