🚀 Web-SSL DINO ViT-2B:轻过滤2B MetaCLIP数据,224分辨率
Web-SSL DINO ViT-2B是一个具有20亿参数的视觉变换器(ViT)模型,它使用DINOv2自监督学习方法,在轻过滤的无语言监督的网络规模图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"(Fan等人,2025年)中被提出,为无语言监督的视觉表征学习提供了新的解决方案。
🚀 快速开始
以下是使用 transformers
库加载和使用 Web-SSL DINO ViT-2B 模型的示例代码:
from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]
patch_features = outputs.last_hidden_state[:, 1:]
✨ 主要特性
- 无语言监督训练:该模型在无语言监督的情况下,使用自监督学习方法在轻过滤的网络图像数据上进行训练,展示了纯视觉学习的强大能力。
- 性能优越:在各种视觉任务中,该模型的性能可以与像CLIP这样的语言监督模型相媲美甚至超越它们。
- 增强的理解能力:通过对包含文本内容的图像子集进行训练,模型在OCR和图表理解能力方面得到了提升。
📦 安装指南
由于文档中未提供具体安装命令,此部分跳过。
💻 使用示例
基础用法
from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]
patch_features = outputs.last_hidden_state[:, 1:]
高级用法
文档中未提供高级用法相关代码,此部分暂不展示。
📚 详细文档
模型详情
属性 |
详情 |
架构 |
ViT(宽度2688,深度24,21个头) |
参数数量 |
20亿 |
分辨率 |
224×224像素 |
训练方式 |
在轻过滤的MetaCLIP数据上进行自监督的Web-DINO训练 |
模型描述
Web-SSL DINO 2B是一个具有20亿参数的视觉变换器模型,它在无语言监督的情况下,使用自监督学习方法在轻过滤的网络图像上进行训练。“light2b” 表示该模型在包含任何文本内容的图像子集上进行训练,保留了原始MetaCLIP数据集约50.3%的数据。这种过滤方式在提高OCR和图表理解能力的同时,还能在所有视觉任务中保持良好的性能。该模型表明,当纯视觉学习进行适当扩展时,它在各种视觉任务中的性能可以与语言监督模型相媲美甚至超越它们。

🔧 技术细节
文档中未提供具体技术实现细节,此部分跳过。
📄 许可证
该项目使用 cc-by-nc-4.0
许可证。
📖 引用
如果您在研究中使用了该模型,请引用以下论文:
@article{fan2025scaling,
title={Scaling Language-Free Visual Representation Learning},
author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
year={2025},
eprint={2504.01017},
archivePrefix={arXiv},
primaryClass={cs.CV}
}