webssl-dino2b-heavy2b-224開源視覺模型 - 免費部署，優化圖表與文本理解能力

首頁

Webssl Dino2b Heavy2b 224

由facebook開發

20億參數的自監督視覺Transformer模型，基於嚴格篩選的網絡圖像數據訓練，特別優化圖表和文本理解能力

圖像分類

Transformers

#20億參數視覺模型 #自監督學習 #圖表文本理解

下載量 24

發布時間 : 4/25/2025

模型概述

這是一個通過自監督學習在嚴格篩選的網絡規模圖像數據上訓練的視覺Transformer模型，特別針對圖表、表格和可讀文本文檔進行了優化，在OCR和圖表理解任務中表現優異

模型特點

嚴格篩選的訓練數據

使用僅佔原始MetaCLIP數據集1.3%的高質量圖像子集訓練，特別包含圖表、表格和可讀文本文檔

自監督學習

採用DINOv2自監督學習方法，無需語言監督即可學習強大的視覺表徵

大規模參數

20億參數的視覺Transformer架構，提供強大的特徵提取能力

優化OCR能力

針對文本和圖表理解特別優化，在相關任務中表現突出

模型能力

圖像特徵提取

視覺表徵學習

圖表理解

文本檢測

表格識別

使用案例

文檔處理

表格識別

從圖像中提取表格結構和內容

高精度的表格檢測和識別

OCR增強

提高圖像中文本的識別準確率

在複雜背景下的文本識別性能提升

視覺理解

圖表分析

理解圖像中的各種圖表類型和數據

準確的圖表分類和數據提取

🚀 Web-SSL DINO ViT-2B：重度過濾的20億參數MetaCLIP數據，224分辨率

本項目是一個擁有20億參數的視覺變換器（ViT）模型，它採用DINOv2自監督學習方法，在經過重度過濾的無語言監督的網絡規模圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被首次提出，能夠在多種視覺任務中展現出優秀的性能。

🚀 快速開始

Web-SSL DINO 2B是一個擁有20億參數的視覺變換器模型，它在經過重度過濾的無語言監督的網絡圖像上進行自監督學習訓練。“heavy2b” 表示該模型是在明確包含圖表、表格和帶有可讀文本的文檔的圖像子集上進行訓練的，這些圖像僅佔原始MetaCLIP數據集的1.3%。這種有針對性的過濾顯著提高了OCR和圖表理解能力，同時在其他視覺任務上也保持了強大的性能。該模型表明，適當擴展的純視覺學習在各種視覺任務中可以達到或超過像CLIP這樣的語言監督模型的性能。

✨ 主要特性

高性能架構：採用ViT架構（寬度2688，深度24，21個頭），擁有20億參數，能夠處理複雜的視覺任務。
特定分辨率：模型的輸入分辨率為224×224像素，適用於多種圖像場景。
自監督學習：通過自監督的Web-DINO方法在經過重度過濾的MetaCLIP數據上進行訓練，無需語言監督。
針對性過濾：在特定的圖像子集上訓練，顯著提高了OCR和圖表理解能力。

📦 安裝指南

文檔中未提及安裝步驟，若有需求，請參考相關庫的官方文檔進行安裝。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-heavy2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

高級用法

文檔中未提及高級用法代碼示例，若有更復雜的使用場景需求，可進一步探索模型的API文檔或相關資料。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	Vision Transformer (ViT)
架構	ViT（寬度2688，深度24，21個頭）
參數數量	20億
分辨率	224×224像素
訓練方式	在經過重度過濾的MetaCLIP數據上進行自監督的Web-DINO訓練

模型概述圖

WebSSL模型概述

📄 許可證

本項目採用CC BY-NC 4.0許可證。

🔗 引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}