webssl - dino300m - full2b - 224開源視覺模型 - 基於海量數據實現圖像識別等視覺應用

首頁

Webssl Dino300m Full2b 224

由facebook開發

基於20億MetaCLIP數據的224分辨率視覺Transformer模型，採用DINOv2自監督學習方法訓練

圖像分類

Transformers

#自監督視覺表徵 #3億參數ViT #無語言監督

下載量 503

發布時間 : 4/25/2025

模型概述

這是一個參數量達3億的視覺Transformer模型，通過自監督學習在20億網絡圖像上訓練而成，無需語言監督，適用於各種視覺任務。

模型特點

大規模自監督學習

基於20億網絡圖像進行訓練，全程無需語言監督

高性能視覺表徵

在各種視覺任務上的表現可媲美甚至超越語言監督模型

高分辨率處理

支持224×224像素分辨率輸入

模型能力

圖像特徵提取

視覺表徵學習

圖像分類

目標檢測

使用案例

計算機視覺

圖像分類

利用模型提取的特徵進行圖像分類任務

目標檢測

結合檢測頭實現高效目標檢測

🚀 Web-SSL DINO ViT-300M: 2B MetaCLIP數據，224分辨率

本項目是一個具有3億參數的視覺Transformer（ViT）模型，它在無語言監督的情況下，使用DINOv2自監督學習方法在網絡規模的圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

✨ 主要特性

採用自監督學習，在無語言監督的20億張網絡圖像上進行訓練。
純視覺學習在適當擴展時，在各種視覺任務中可媲美甚至超越像CLIP這樣的語言監督模型。

📦 安裝指南

文檔未提及安裝步驟，跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino300m-full2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino300m-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 詳細文檔

模型詳情

屬性	詳情
架構	ViT（寬度1536，深度40，24個頭）
參數數量	3億
分辨率	224×224像素
訓練方式	在來自MetaCLIP網絡數據的20億個圖像樣本上進行自監督Web-DINO訓練

模型描述

Web-SSL DINO 300M是一個具有3億參數的視覺Transformer模型，它在無語言監督的情況下，使用自監督學習方法在20億張網絡圖像上進行訓練。該模型表明，當純視覺學習進行適當擴展時，在各種視覺任務中，其性能可以與像CLIP這樣的語言監督模型相匹配甚至超越它們。

WebSSL模型概述

📄 許可證

本項目採用CC BY-NC 4.0許可證。

📚 引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}