webssl - mae700m - full2b - 224開源視覺模型 - 無需語言監督處理圖像應用廣泛

首頁

Webssl Mae700m Full2b 224

由facebook開發

這是一個7億參數的視覺Transformer模型，採用掩碼自編碼器自監督學習方法在20億網絡圖像上訓練，無需語言監督。

圖像分類

Transformers

#無監督視覺學習 #7億參數大模型 #圖表理解優化

下載量 15

發布時間 : 4/25/2025

模型概述

Web-SSL MAE ViT-H是一個基於視覺Transformer架構的大規模視覺表徵學習模型，通過自監督學習在大量網絡圖像數據上進行訓練，適用於各種視覺任務。

模型特點

大規模自監督學習

基於20億MetaCLIP網絡數據進行訓練，無需語言監督

高性能視覺表徵

在各種視覺任務中表現優異，尤其在OCR和圖表理解方面突出

純視覺學習

證明純視覺學習可以在規模適當時匹配或超越語言監督模型的性能

模型能力

圖像特徵提取

視覺表徵學習

OCR識別

圖表理解

使用案例

文檔處理

OCR文本識別

從圖像中提取文本內容

在OCR任務中表現優異

數據可視化

圖表理解

分析和理解圖表內容

在圖表理解任務中表現突出

通用視覺任務

圖像分類

對圖像內容進行分類

在傳統視覺基準測試中保持競爭力

🚀 Web-SSL MAE ViT-H (700M)：2B MetaCLIP數據，224分辨率

本項目是一個具有7億參數的視覺變換器（ViT-H），它採用掩碼自編碼器（MAE）自監督學習方法，在無語言監督的網絡規模圖像數據上進行訓練。該模型在論文"Scaling Language-Free Visual Representation Learning"（Fan等人，2025年）中被提出。

🚀 快速開始

Web-SSL MAE ViT-H是一個擁有7億參數的視覺變換器模型，它使用掩碼自編碼器自監督學習方法，在20億張無語言監督的網絡圖像上進行訓練。該模型表明，適當擴展的純視覺學習在各種視覺任務中可以達到或超過像CLIP這樣的語言監督模型的性能。Web-MAE在OCR和圖表理解任務上表現尤為出色，同時在傳統視覺基準測試和多模態任務中也保持著有競爭力的性能。

✨ 主要特性

基於ViT-H（Huge）架構，擁有7億參數。
處理分辨率為224×224像素的圖像。
使用自監督Web-MAE方法，在來自MetaCLIP網絡數據的20億個圖像樣本上進行訓練。

📦 安裝指南

文檔未提供安裝步驟，可參考transformers庫的官方安裝指南進行安裝。

💻 使用示例

基礎用法

from transformers import AutoImageProcessor, ViTModel
import torch
from PIL import Image

# Adjust the size, crop_size, etc. fields to your liking
processor = AutoImageProcessor.from_pretrained('facebook/webssl-mae700m-full2b-224')
model = ViTModel.from_pretrained('facebook/webssl-mae700m-full2b-224').cuda().eval()

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt").to('cuda')
with torch.no_grad():
    outputs = model(**inputs)

# Extract features from the encoder
encoder_hidden_states = outputs.last_hidden_state

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	ViT-H（Huge）
參數數量	7億
分辨率	224×224像素
訓練方式	在來自MetaCLIP網絡數據的20億個圖像樣本上進行自監督Web-MAE訓練

模型描述

Web-SSL MAE ViT-H在無語言監督的情況下，利用掩碼自編碼器自監督學習在20億張網絡圖像上進行訓練。該模型在多種視覺任務中表現出色，尤其在OCR和圖表理解任務上優勢明顯。

WebSSL模型概述

📄 許可證

本項目採用CC BY-NC 4.0許可證。

📚 引用

如果您使用了該模型，請引用以下論文：

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}