webssl - dino3b - full2b - 224開源視覺模型 - 免費部署學習強大視覺表徵

首頁

Webssl Dino3b Full2b 224

由facebook開發

這是一個通過DINOv2自監督學習在20億網絡圖像上訓練的30億參數視覺Transformer模型，無需語言監督即可學習強大的視覺表徵。

圖像分類

Transformers

#自監督視覺表徵 #30億參數ViT #無語言監督

下載量 72

發布時間 : 4/25/2025

模型概述

該模型證明純視覺學習可以在各種視覺任務中達到或超過語言監督模型的性能，適用於傳統視覺基準測試及多模態任務。

模型特點

大規模自監督學習

基於20億網絡圖像進行訓練，無需語言監督即可學習強大的視覺表徵

高性能視覺模型

在各種視覺任務中達到或超過語言監督模型的性能

多任務適用性

適用於傳統視覺基準測試以及視覺問答、OCR和圖表理解等多模態任務

模型能力

圖像特徵提取

視覺表徵學習

多模態任務處理

使用案例

計算機視覺

圖像分類

用於圖像分類任務

在傳統視覺基準測試中表現優異

視覺問答

處理需要視覺理解的問答任務

文檔分析

OCR

光學字符識別應用

圖表理解

解析和理解圖表內容

🚀 Web-SSL DINO ViT-3B: 2B MetaCLIP數據，224分辨率

本項目是一個具有30億參數的視覺變換器（ViT）模型，它在無語言監督的情況下，利用DINOv2自監督學習方法在網絡規模的圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

🚀 快速開始

Web-SSL DINO 3B是一個具有30億參數的視覺變換器模型，它在無語言監督的情況下，使用自監督學習方法在20億張網絡圖像上進行訓練。該模型表明，在適當擴展的情況下，純視覺學習在各種視覺任務中的表現可以與或超過像CLIP這樣的語言監督模型。它在傳統視覺基準測試和多模態任務（包括視覺問答、OCR和圖表理解）中都表現出色。

✨ 主要特性

架構先進：採用ViT架構（寬度3072，深度26，頭數24）。
參數規模大：擁有30億參數。
分辨率適中：支持224×224像素的圖像分辨率。
訓練數據豐富：基於MetaCLIP網絡數據中的20億個圖像樣本，使用自監督Web - DINO方法進行訓練。

📦 安裝指南

文檔未提及安裝步驟，暫不展示。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高級用法

文檔未提及高級用法代碼示例，暫不展示。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	視覺變換器（ViT）
訓練數據	基於MetaCLIP網絡數據中的20億個圖像樣本，使用自監督Web - DINO方法進行訓練
架構參數	寬度3072，深度26，頭數24
總參數	30億
圖像分辨率	224×224像素

模型概述圖

WebSSL Model Overview

🔧 技術細節

文檔未提供足夠的技術實現細節，暫不展示。

📄 許可證

本項目採用CC - BY - NC - 4.0許可證。

📄 引用

如果您使用了本模型，請引用以下論文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}