webssl-dino2b-full2b-224開源視覺模型 - 免費部署助力多模態任務高效完成

Home

Webssl Dino2b Full2b 224

Developed by facebook

20億參數視覺Transformer模型，通過純視覺自監督學習在20億網絡圖像上訓練而成，在多模態任務中表現優異

圖像分類

Transformers

#20億參數視覺模型 #無語言監督學習 #網頁規模圖像訓練

Downloads 50

Release Time : 4/25/2025

Model Overview

這是一個基於DINOv2自監督學習框架訓練的20億參數視覺Transformer模型，無需語言監督，在各類視覺任務中達到或超越語言監督模型的性能

Model Features

純視覺自監督學習

無需語言監督，僅通過視覺數據進行訓練

大規模訓練

在20億網絡圖像樣本上進行訓練

高性能表現

在傳統視覺基準測試和多模態任務中表現優異

雙注意力實現

支持'eager'和'sdpa'兩種注意力實現方式

Model Capabilities

圖像特徵提取

視覺表徵學習

多模態任務處理

視覺問答

OCR識別

圖表理解

Use Cases

計算機視覺

圖像分類

利用模型提取的圖像特徵進行分類任務

達到或超越語言監督模型的性能

目標檢測

通過模型的分塊標記特徵進行目標定位

多模態應用

視覺問答

結合語言模型實現圖像內容問答

表現優異

圖表理解

解析和理解圖表中的視覺信息

🚀 Web-SSL DINO ViT-2B：20億MetaCLIP數據，224分辨率

本項目是一個具有20億參數的視覺變換器（ViT）模型，它採用DINOv2自監督學習方法，在無語言監督的網絡規模圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被首次提出。

🚀 快速開始

Web-SSL DINO 2B是一個擁有20億參數的視覺變換器模型，它在20億張無語言監督的網絡圖像上進行自監督學習訓練。該模型表明，在適當的規模下，純視覺學習在各種視覺任務中可以達到甚至超越像CLIP這樣的語言監督模型的性能。它在傳統視覺基準測試和包括視覺問答、OCR和圖表理解在內的多模態任務中均表現出色。

✨ 主要特性

基於自監督學習，無需語言監督，在大規模網絡圖像數據上進行訓練。
能夠在多種視覺和多模態任務中達到或超越語言監督模型的性能。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 詳細文檔

模型詳情

屬性	詳情
架構	ViT（寬度2688，深度24，21個頭）
參數	20億
分辨率	224×224像素
訓練方式	在來自MetaCLIP網絡數據的20億個圖像樣本上進行自監督Web-DINO訓練

模型描述

Web-SSL DINO 2B在多種視覺任務中表現出色，以下是模型的一些效果展示： WebSSL Model Overview

📄 許可證

本項目採用CC BY-NC 4.0許可證。

📚 引用

如果您使用了該模型，請引用以下論文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}