webssl - dino5b - full2b - 224开源视觉模型 - 免费部署，多视觉任务表现优异

首页

Webssl Dino5b Full2b 224

由 facebook 开发

50亿参数的视觉Transformer模型，通过20亿网络图像的自监督学习训练而成，无需语言监督即可在各种视觉任务中表现优异。

图像分类

Transformers

#50亿参数视觉Transformer #无语言监督学习 #网络规模自训练

下载量 35

发布时间 : 4/25/2025

模型简介

基于DINOv2自监督学习方法训练的视觉Transformer模型，证明纯视觉学习方法在多模态任务中可媲美语言监督模型。

模型特点

无语言监督学习

全程无需语言监督，仅通过20亿网络图像进行自监督训练

大规模参数

50亿参数的视觉Transformer架构，具备强大的表征能力

多任务适应性

在传统视觉基准测试和多模态任务中均表现优异

模型能力

图像特征提取

视觉问答

OCR识别

图表理解

使用案例

计算机视觉

图像分类

利用模型提取的图像特征进行分类任务

目标检测

通过模型的分块标记特征进行目标定位

多模态应用

视觉问答

结合文本模型实现图像内容问答系统

🚀 Web-SSL DINO ViT-5B: 2B MetaCLIP数据，224分辨率

Web-SSL DINO ViT-5B是一个具有50亿参数的视觉变换器（ViT）模型，它在无语言监督的情况下，使用DINOv2自监督学习方法在网络规模的图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

🚀 快速开始

你可以按照以下步骤使用Web-SSL DINO ViT-5B模型：

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino5b-full2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino5b-full2b-224')

# 处理图像
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS令牌特征
patch_features = outputs.last_hidden_state[:, 1:] # 逐块令牌特征

✨ 主要特性

大规模视觉学习：在20亿个网络图像上进行自监督学习，无需语言监督，展示了纯视觉学习在适当扩展时的强大性能。
广泛的任务适用性：在传统视觉基准测试和多模态任务（包括视觉问答、OCR和图表理解）中都表现出色。

📚 详细文档

模型详情

属性	详情
模型架构	ViT（宽度3584，深度32，28个头）
参数数量	50亿
图像分辨率	224×224像素
训练方式	使用来自MetaCLIP网络数据的20亿个图像样本进行自监督Web-DINO训练

模型描述

Web-SSL DINO 5B是一个具有50亿参数的视觉变换器模型，它在无语言监督的情况下，使用自监督学习方法在20亿个网络图像上进行训练。该模型表明，当纯视觉学习进行适当扩展时，在各种视觉任务中可以达到甚至超过像CLIP这样的语言监督模型的性能。它在传统视觉基准测试和多模态任务（包括视觉问答和OCR及图表理解）中都表现良好。

WebSSL模型概述

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📖 引用

如果你在研究中使用了该模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}