webssl-dino2b-light2b-224開源視覺模型 - 免費進行圖像識別等多場景視覺應用

首頁

Webssl Dino2b Light2b 224

由facebook開發

基於DINOv2自監督學習框架訓練的20億參數視覺Transformer模型，使用輕過濾的網絡規模圖像數據（無需語言監督）。

圖像分類

Transformers

#20億參數視覺Transformer #無語言監督學習 #輕過濾網絡數據訓練

下載量 27

發布時間 : 4/25/2025

模型概述

該模型通過自監督學習在輕過濾的網絡圖像數據上進行訓練，專注於純視覺表徵學習，適用於各種視覺任務，尤其在OCR和圖表理解方面表現突出。

模型特點

純視覺學習

無需語言監督，僅通過圖像數據進行自監督訓練。

輕過濾數據

使用輕過濾的MetaCLIP數據子集（保留約50.3%原始數據），平衡了數據質量和多樣性。

大規模參數

20億參數的視覺Transformer架構，提供強大的表徵能力。

OCR和圖表理解優勢

在保持所有視覺任務表現的同時，特別提升了OCR和圖表理解能力。

模型能力

圖像特徵提取

視覺表徵學習

OCR任務

圖表理解

使用案例

計算機視覺

圖像分類

利用模型提取的圖像特徵進行分類任務。

目標檢測

通過模型的分塊標記特徵進行目標定位和識別。

文檔分析

OCR識別

識別圖像中的文字內容。

相比其他視覺模型有顯著提升

圖表理解

解析圖像中的圖表和數據可視化內容。

表現優於語言監督模型

🚀 Web-SSL DINO ViT-2B：輕過濾2B MetaCLIP數據，224分辨率

Web-SSL DINO ViT-2B是一個具有20億參數的視覺變換器（ViT）模型，它使用DINOv2自監督學習方法，在輕過濾的無語言監督的網絡規模圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出，為無語言監督的視覺表徵學習提供了新的解決方案。

🚀 快速開始

以下是使用 transformers 庫加載和使用 Web-SSL DINO ViT-2B 模型的示例代碼：

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

✨ 主要特性

無語言監督訓練：該模型在無語言監督的情況下，使用自監督學習方法在輕過濾的網絡圖像數據上進行訓練，展示了純視覺學習的強大能力。
性能優越：在各種視覺任務中，該模型的性能可以與像CLIP這樣的語言監督模型相媲美甚至超越它們。
增強的理解能力：通過對包含文本內容的圖像子集進行訓練，模型在OCR和圖表理解能力方面得到了提升。

📦 安裝指南

由於文檔中未提供具體安裝命令，此部分跳過。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-light2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-light2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高級用法

文檔中未提供高級用法相關代碼，此部分暫不展示。

📚 詳細文檔

模型詳情

屬性	詳情
架構	ViT（寬度2688，深度24，21個頭）
參數數量	20億
分辨率	224×224像素
訓練方式	在輕過濾的MetaCLIP數據上進行自監督的Web-DINO訓練

模型描述

Web-SSL DINO 2B是一個具有20億參數的視覺變換器模型，它在無語言監督的情況下，使用自監督學習方法在輕過濾的網絡圖像上進行訓練。“light2b” 表示該模型在包含任何文本內容的圖像子集上進行訓練，保留了原始MetaCLIP數據集約50.3%的數據。這種過濾方式在提高OCR和圖表理解能力的同時，還能在所有視覺任務中保持良好的性能。該模型表明，當純視覺學習進行適當擴展時，它在各種視覺任務中的性能可以與語言監督模型相媲美甚至超越它們。

WebSSL模型概述

🔧 技術細節

文檔中未提供具體技術實現細節，此部分跳過。

📄 許可證

該項目使用 cc-by-nc-4.0 許可證。

📖 引用

如果您在研究中使用了該模型，請引用以下論文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}