webssl-dino7b-full8b-518開源視覺模型 - 基於海量數據免語言監督訓練

首頁

Webssl Dino7b Full8b 518

由facebook開發

基於80億MetaCLIP數據訓練的70億參數視覺Transformer模型，採用DINOv2自監督學習框架，無需語言監督

圖像分類

Transformers

#無語言視覺學習 #518高分辨率 #80億數據訓練

下載量 157

發布時間 : 4/25/2025

模型概述

這是一個通過自監督學習在網頁級圖像數據上訓練的視覺Transformer模型，證明純視覺學習方案在各類視覺任務上可達到甚至超越語言監督模型的性能

模型特點

純視覺自監督學習

完全無需語言監督，僅通過網頁圖像數據進行訓練

大規模訓練數據

基於80億MetaCLIP網絡圖像樣本訓練

高分辨率處理

支持518×518像素的高分辨率圖像輸入

多任務適應性

在傳統視覺基準測試及多模態任務中表現卓越

模型能力

圖像特徵提取

視覺表徵學習

視覺問答

OCR識別

圖表理解

使用案例

計算機視覺

圖像分類

用於圖像分類任務的特徵提取

在傳統視覺基準測試中表現卓越

目標檢測

作為目標檢測任務的基礎特徵提取器

多模態應用

視覺問答

用於需要理解圖像內容的問答系統

文檔理解

用於OCR和文檔佈局分析

🚀 Web-SSL DINO ViT-7B: 8B MetaCLIP數據，518分辨率

Web-SSL DINO ViT-7B是一個具有70億參數的視覺變換器（ViT）模型。它在無語言監督的情況下，利用DINOv2自監督學習方法，在網絡規模的圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

✨ 主要特性

此模型展示了在適當擴展規模時，純視覺學習在各種視覺任務中能夠達到甚至超越像CLIP這樣的語言監督模型的性能。
在傳統視覺基準測試和多模態任務（包括視覺問答、OCR和圖表理解）中表現出色。

📦 安裝指南

文檔未提及安裝步驟，跳過此章節。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino7b-full8b-518')
model = Dinov2Model.from_pretrained('facebook/webssl-dino7b-full8b-518')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高級用法

文檔未提及高級用法代碼示例，跳過此部分。

📚 詳細文檔

模型詳情

屬性	詳情
架構	ViT（4096寬度，32深度，32頭）
參數數量	70億
分辨率	518×518像素
訓練方式	在來自MetaCLIP網絡數據的80億圖像樣本上進行自監督Web-DINO訓練

模型描述

Web-SSL DINO 7B是一個具有70億參數的視覺變換器模型，它在無語言監督的情況下，對80億張網絡圖像進行自監督學習訓練。

WebSSL模型概述

🔧 技術細節

文檔未提供具體技術實現細節，跳過此章節。

📄 許可證

本項目採用CC BY-NC 4.0許可證。

📚 引用

如果您使用了該模型，請引用以下論文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}