webssl-dino7b-full8b-518开源视觉模型 - 基于海量数据免语言监督训练

首页

Webssl Dino7b Full8b 518

由 facebook 开发

基于80亿MetaCLIP数据训练的70亿参数视觉Transformer模型，采用DINOv2自监督学习框架，无需语言监督

图像分类

Transformers

#无语言视觉学习 #518高分辨率 #80亿数据训练

下载量 157

发布时间 : 4/25/2025

模型简介

这是一个通过自监督学习在网页级图像数据上训练的视觉Transformer模型，证明纯视觉学习方案在各类视觉任务上可达到甚至超越语言监督模型的性能

模型特点

纯视觉自监督学习

完全无需语言监督，仅通过网页图像数据进行训练

大规模训练数据

基于80亿MetaCLIP网络图像样本训练

高分辨率处理

支持518×518像素的高分辨率图像输入

多任务适应性

在传统视觉基准测试及多模态任务中表现卓越

模型能力

图像特征提取

视觉表征学习

视觉问答

OCR识别

图表理解

使用案例

计算机视觉

图像分类

用于图像分类任务的特征提取

在传统视觉基准测试中表现卓越

目标检测

作为目标检测任务的基础特征提取器

多模态应用

视觉问答

用于需要理解图像内容的问答系统

文档理解

用于OCR和文档布局分析

🚀 Web-SSL DINO ViT-7B: 8B MetaCLIP数据，518分辨率

Web-SSL DINO ViT-7B是一个具有70亿参数的视觉变换器（ViT）模型。它在无语言监督的情况下，利用DINOv2自监督学习方法，在网络规模的图像数据上进行训练。该模型在论文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

✨ 主要特性

此模型展示了在适当扩展规模时，纯视觉学习在各种视觉任务中能够达到甚至超越像CLIP这样的语言监督模型的性能。
在传统视觉基准测试和多模态任务（包括视觉问答、OCR和图表理解）中表现出色。

📦 安装指南

文档未提及安装步骤，跳过此章节。

💻 使用示例

基础用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino7b-full8b-518')
model = Dinov2Model.from_pretrained('facebook/webssl-dino7b-full8b-518')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高级用法

文档未提及高级用法代码示例，跳过此部分。

📚 详细文档

模型详情

属性	详情
架构	ViT（4096宽度，32深度，32头）
参数数量	70亿
分辨率	518×518像素
训练方式	在来自MetaCLIP网络数据的80亿图像样本上进行自监督Web-DINO训练

模型描述

Web-SSL DINO 7B是一个具有70亿参数的视觉变换器模型，它在无语言监督的情况下，对80亿张网络图像进行自监督学习训练。

WebSSL模型概述

🔧 技术细节

文档未提供具体技术实现细节，跳过此章节。

📄 许可证

本项目采用CC BY-NC 4.0许可证。

📚 引用

如果您使用了该模型，请引用以下论文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}