dinov2-with-registers-base开源视觉模型 - 免费部署优化特征提取能力

首页

Dinov2 With Registers Base

由 facebook 开发

基于DINOv2训练的视觉Transformer模型，通过添加寄存器标记优化注意力机制，提升特征提取能力

图像分类

Transformers

开源协议:Apache-2.0 #自监督视觉特征提取 #寄存器增强注意力 #图像嵌入表示

下载量 22.74k

发布时间 : 12/20/2024

模型简介

该模型是带有寄存器的视觉Transformer（ViT）基础版，采用DINOv2方法进行自监督训练，能够从图像中提取高质量的特征表示，适用于各种计算机视觉任务。

模型特点

寄存器机制

通过添加专用寄存器标记消除注意力图谱伪影，获得更清晰的注意力分布

自监督学习

采用DINOv2方法进行训练，无需标注数据即可学习有意义的图像特征表示

注意力优化

改进的注意力机制提供更可解释的注意力图谱，有助于理解模型决策过程

模型能力

图像特征提取

自监督学习

计算机视觉任务基础模型

使用案例

计算机视觉

图像分类

可作为基础模型，添加分类头部进行图像分类任务

目标检测

提取的图像特征可用于目标检测任务

图像相似度计算

利用提取的特征向量计算图像间的相似度

🚀 视觉变换器（使用DINOv2训练的基础尺寸模型，带寄存器）

本项目是基于DINOv2训练的视觉变换器（ViT）基础尺寸模型，带有寄存器。它能用于图像特征提取，为图像相关的下游任务提供强大的特征表示。

🚀 快速开始

本模型是由Darcet等人在论文 Vision Transformers Need Registers 中提出的视觉变换器（ViT）模型，并首次在此仓库中发布。

需要说明的是，发布带寄存器的DINOv2的团队并未为此模型撰写模型卡片，此模型卡片由Hugging Face团队编写。

✨ 主要特性

模型描述

视觉变换器（ViT）是一种类似BERT的变换器编码器模型，最初被提出用于在ImageNet上进行有监督的图像分类任务。

随后，人们找到了让ViT在无监督图像特征提取（即学习有意义的特征，也称为嵌入）方面表现出色的方法，无需任何标签。相关的论文包括 DINOv2 和 MAE。

DINOv2的作者注意到ViT在注意力图中存在伪影，这是由于模型使用了一些图像块作为“寄存器”。作者提出了一种解决方案：添加一些新的标记（称为“寄存器”标记），这些标记仅在预训练期间使用（之后丢弃）。这样做的结果是：

消除了伪影
使注意力图具有可解释性
提高了性能

模型注意力图可视化

有寄存器和无寄存器训练的各种模型的注意力图可视化。取自原论文。

需要注意的是，此模型不包含任何微调的头部。

通过对模型进行预训练，它学习到了图像的内部表示，可用于提取对下游任务有用的特征。例如，如果你有一个带标签的图像数据集，可以在预训练的编码器之上放置一个线性层来训练一个标准分类器。通常会在 [CLS] 标记之上放置一个线性层，因为该标记的最后隐藏状态可以看作是整个图像的表示。

预期用途和局限性

你可以使用原始模型进行特征提取。可以在模型中心中查找针对你感兴趣的任务进行微调的版本。

💻 使用示例

基础用法

以下是如何使用此模型的示例代码：

from transformers import AutoImageProcessor, AutoModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-with-registers-base')
model = AutoModel.from_pretrained('facebook/dinov2-with-registers-base')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeX引用

@misc{darcet2024visiontransformersneedregisters,
      title={Vision Transformers Need Registers}, 
      author={Timothée Darcet and Maxime Oquab and Julien Mairal and Piotr Bojanowski},
      year={2024},
      eprint={2309.16588},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2309.16588}, 
}