🚀 Web-SSL DINO ViT-2B:輕過濾2B MetaCLIP數據,224分辨率
Web-SSL DINO ViT-2B是一個具有20億參數的視覺變換器(ViT)模型,它使用DINOv2自監督學習方法,在輕過濾的無語言監督的網絡規模圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"(Fan等人,2025年)中被提出,為無語言監督的視覺表徵學習提供了新的解決方案。
🚀 快速開始
以下是使用 transformers
庫加載和使用 Web-SSL DINO ViT-2B 模型的示例代碼:
from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]
patch_features = outputs.last_hidden_state[:, 1:]
✨ 主要特性
- 無語言監督訓練:該模型在無語言監督的情況下,使用自監督學習方法在輕過濾的網絡圖像數據上進行訓練,展示了純視覺學習的強大能力。
- 性能優越:在各種視覺任務中,該模型的性能可以與像CLIP這樣的語言監督模型相媲美甚至超越它們。
- 增強的理解能力:通過對包含文本內容的圖像子集進行訓練,模型在OCR和圖表理解能力方面得到了提升。
📦 安裝指南
由於文檔中未提供具體安裝命令,此部分跳過。
💻 使用示例
基礎用法
from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]
patch_features = outputs.last_hidden_state[:, 1:]
高級用法
文檔中未提供高級用法相關代碼,此部分暫不展示。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
架構 |
ViT(寬度2688,深度24,21個頭) |
參數數量 |
20億 |
分辨率 |
224×224像素 |
訓練方式 |
在輕過濾的MetaCLIP數據上進行自監督的Web-DINO訓練 |
模型描述
Web-SSL DINO 2B是一個具有20億參數的視覺變換器模型,它在無語言監督的情況下,使用自監督學習方法在輕過濾的網絡圖像上進行訓練。“light2b” 表示該模型在包含任何文本內容的圖像子集上進行訓練,保留了原始MetaCLIP數據集約50.3%的數據。這種過濾方式在提高OCR和圖表理解能力的同時,還能在所有視覺任務中保持良好的性能。該模型表明,當純視覺學習進行適當擴展時,它在各種視覺任務中的性能可以與語言監督模型相媲美甚至超越它們。

🔧 技術細節
文檔中未提供具體技術實現細節,此部分跳過。
📄 許可證
該項目使用 cc-by-nc-4.0
許可證。
📖 引用
如果您在研究中使用了該模型,請引用以下論文:
@article{fan2025scaling,
title={Scaling Language-Free Visual Representation Learning},
author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
year={2025},
eprint={2504.01017},
archivePrefix={arXiv},
primaryClass={cs.CV}
}