webssl-dino2b-light2b-224开源视觉模型 - 免费进行图像识别等多场景视觉应用

首页

Webssl Dino2b Light2b 224

由 facebook 开发

基于DINOv2自监督学习框架训练的20亿参数视觉Transformer模型，使用轻过滤的网络规模图像数据（无需语言监督）。

图像分类

Transformers

#20亿参数视觉Transformer #无语言监督学习 #轻过滤网络数据训练

下载量 27

发布时间 : 4/25/2025

模型简介

该模型通过自监督学习在轻过滤的网络图像数据上进行训练，专注于纯视觉表征学习，适用于各种视觉任务，尤其在OCR和图表理解方面表现突出。

模型特点

纯视觉学习

无需语言监督，仅通过图像数据进行自监督训练。

轻过滤数据

使用轻过滤的MetaCLIP数据子集（保留约50.3%原始数据），平衡了数据质量和多样性。

大规模参数

20亿参数的视觉Transformer架构，提供强大的表征能力。

OCR和图表理解优势

在保持所有视觉任务表现的同时，特别提升了OCR和图表理解能力。

模型能力

图像特征提取

视觉表征学习

OCR任务

图表理解

使用案例

计算机视觉

图像分类

利用模型提取的图像特征进行分类任务。

目标检测

通过模型的分块标记特征进行目标定位和识别。

文档分析

OCR识别

识别图像中的文字内容。

相比其他视觉模型有显著提升

图表理解

解析图像中的图表和数据可视化内容。

表现优于语言监督模型

🚀 Web-SSL DINO ViT-2B：轻过滤2B MetaCLIP数据，224分辨率

Web-SSL DINO ViT-2B是一个具有20亿参数的视觉变换器（ViT）模型，它使用DINOv2自监督学习方法，在轻过滤的无语言监督的网络规模图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出，为无语言监督的视觉表征学习提供了新的解决方案。

🚀 快速开始

以下是使用 transformers 库加载和使用 Web-SSL DINO ViT-2B 模型的示例代码：

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

✨ 主要特性

无语言监督训练：该模型在无语言监督的情况下，使用自监督学习方法在轻过滤的网络图像数据上进行训练，展示了纯视觉学习的强大能力。
性能优越：在各种视觉任务中，该模型的性能可以与像CLIP这样的语言监督模型相媲美甚至超越它们。
增强的理解能力：通过对包含文本内容的图像子集进行训练，模型在OCR和图表理解能力方面得到了提升。

📦 安装指南

由于文档中未提供具体安装命令，此部分跳过。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高级用法

文档中未提供高级用法相关代码，此部分暂不展示。

📚 详细文档

模型详情

属性	详情
架构	ViT（宽度2688，深度24，21个头）
参数数量	20亿
分辨率	224×224像素
训练方式	在轻过滤的MetaCLIP数据上进行自监督的Web-DINO训练

模型描述

Web-SSL DINO 2B是一个具有20亿参数的视觉变换器模型，它在无语言监督的情况下，使用自监督学习方法在轻过滤的网络图像上进行训练。“light2b” 表示该模型在包含任何文本内容的图像子集上进行训练，保留了原始MetaCLIP数据集约50.3%的数据。这种过滤方式在提高OCR和图表理解能力的同时，还能在所有视觉任务中保持良好的性能。该模型表明，当纯视觉学习进行适当扩展时，它在各种视觉任务中的性能可以与语言监督模型相媲美甚至超越它们。

WebSSL模型概述

🔧 技术细节

文档中未提供具体技术实现细节，此部分跳过。

📄 许可证

该项目使用 cc-by-nc-4.0 许可证。

📖 引用

如果您在研究中使用了该模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}