dinov2-with-registers-base開源視覺模型 - 免費部署優化特徵提取能力

首頁

Dinov2 With Registers Base

由facebook開發

基於DINOv2訓練的視覺Transformer模型，通過添加寄存器標記優化注意力機制，提升特徵提取能力

圖像分類

Transformers

開源協議:Apache-2.0 #自監督視覺特徵提取 #寄存器增強注意力 #圖像嵌入表示

下載量 22.74k

發布時間 : 12/20/2024

模型概述

該模型是帶有寄存器的視覺Transformer（ViT）基礎版，採用DINOv2方法進行自監督訓練，能夠從圖像中提取高質量的特徵表示，適用於各種計算機視覺任務。

模型特點

寄存器機制

通過添加專用寄存器標記消除注意力圖譜偽影，獲得更清晰的注意力分佈

自監督學習

採用DINOv2方法進行訓練，無需標註數據即可學習有意義的圖像特徵表示

注意力優化

改進的注意力機制提供更可解釋的注意力圖譜，有助於理解模型決策過程

模型能力

圖像特徵提取

自監督學習

計算機視覺任務基礎模型

使用案例

計算機視覺

圖像分類

可作為基礎模型，添加分類頭部進行圖像分類任務

目標檢測

提取的圖像特徵可用於目標檢測任務

圖像相似度計算

利用提取的特徵向量計算圖像間的相似度

🚀 視覺變換器（使用DINOv2訓練的基礎尺寸模型，帶寄存器）

本項目是基於DINOv2訓練的視覺變換器（ViT）基礎尺寸模型，帶有寄存器。它能用於圖像特徵提取，為圖像相關的下游任務提供強大的特徵表示。

🚀 快速開始

本模型是由Darcet等人在論文 Vision Transformers Need Registers 中提出的視覺變換器（ViT）模型，並首次在此倉庫中發佈。

需要說明的是，發佈帶寄存器的DINOv2的團隊並未為此模型撰寫模型卡片，此模型卡片由Hugging Face團隊編寫。

✨ 主要特性

模型描述

視覺變換器（ViT）是一種類似BERT的變換器編碼器模型，最初被提出用於在ImageNet上進行有監督的圖像分類任務。

隨後，人們找到了讓ViT在無監督圖像特徵提取（即學習有意義的特徵，也稱為嵌入）方面表現出色的方法，無需任何標籤。相關的論文包括 DINOv2 和 MAE。

DINOv2的作者注意到ViT在注意力圖中存在偽影，這是由於模型使用了一些圖像塊作為“寄存器”。作者提出了一種解決方案：添加一些新的標記（稱為“寄存器”標記），這些標記僅在預訓練期間使用（之後丟棄）。這樣做的結果是：

消除了偽影
使注意力圖具有可解釋性
提高了性能

模型注意力圖可視化

有寄存器和無寄存器訓練的各種模型的注意力圖可視化。取自原論文。

需要注意的是，此模型不包含任何微調的頭部。

通過對模型進行預訓練，它學習到了圖像的內部表示，可用於提取對下游任務有用的特徵。例如，如果你有一個帶標籤的圖像數據集，可以在預訓練的編碼器之上放置一個線性層來訓練一個標準分類器。通常會在 [CLS] 標記之上放置一個線性層，因為該標記的最後隱藏狀態可以看作是整個圖像的表示。

預期用途和侷限性

你可以使用原始模型進行特徵提取。可以在模型中心中查找針對你感興趣的任務進行微調的版本。

💻 使用示例

基礎用法

以下是如何使用此模型的示例代碼：

from transformers import AutoImageProcessor, AutoModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-with-registers-base')
model = AutoModel.from_pretrained('facebook/dinov2-with-registers-base')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeX引用

@misc{darcet2024visiontransformersneedregisters,
      title={Vision Transformers Need Registers}, 
      author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
      year={2024},
      eprint={2309.16588},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2309.16588}, 
}