webssl - mae1b - full2b - 224オープンソースビジュアルモデル - 言語監督なしで学習するビジュアル表現，画像分析に使用

Home

Webssl Mae1b Full2b 224

Developed by facebook

10億パラメータの視覚Transformerモデルで、マスク付き自己符号化器による自己教師あり学習方法で20億のウェブ画像でトレーニングされ、言語監督なしで視覚表現を学習できます。

画像分類

Transformers

#10億パラメータ視覚Transformer #言語なし教師なし学習 #20億画像でトレーニング

Downloads 36

Release Time : 4/25/2025

Model Overview

このモデルは、純粋な視覚学習方法が様々な視覚タスクで言語監督モデルの性能に匹敵またはそれを超えることを証明しており、特にOCRやチャート理解タスクで優れたパフォーマンスを発揮します。

Model Features

大規模自己教師あり学習

20億のウェブ画像でトレーニングされ、言語監督を一切必要としません

効率的な視覚表現

OCRやチャート理解などのタスクで言語監督モデルよりも優れた性能を発揮します

純粋視覚アーキテクチャ

ViTアーキテクチャを採用し、視覚情報処理に特化しています

Model Capabilities

画像特徴抽出

視覚表現学習

OCRタスク処理

チャート理解

Use Cases

ドキュメント処理

光学文字認識(OCR)

画像からテキスト情報を抽出

言語監督モデルを上回る認識精度

データ可視化

チャート理解

チャート内のデータと関係を解析

優れた理解能力を発揮

🚀 Web-SSL MAE ViT-1B: 2B MetaCLIPデータ、224解像度

このモデルは、言語の監督なしでウェブ規模の画像データを用いて、マスク付きオートエンコーダ（MAE）による自己教師あり学習で学習された、10億個のパラメータを持つビジョントランスフォーマー（ViT）です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	ViT (幅1536、深さ40、ヘッド数24)
パラメータ数	10億
解像度	224×224ピクセル
学習方法	MetaCLIPのウェブデータからの20億個の画像サンプルを使用した自己教師ありWeb-MAE

モデルの説明

Web-SSL MAE 1Bは、言語の監督なしで20億枚のウェブ画像を用いて、マスク付きオートエンコーダの自己教師あり学習で学習された、10億個のパラメータを持つビジョントランスフォーマーモデルです。このモデルは、純粋な視覚学習を適切に拡張することで、様々なビジョンタスクにおいてCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮できることを示しています。Web-MAEは、OCRやチャート理解タスクで特に強い性能を発揮し、従来のビジョンベンチマークやマルチモーダルタスクでも競争力のある性能を維持しています。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, ViTModel
import torch
from PIL import Image

# Adjust the size, crop_size, etc. fields to your liking
processor = AutoImageProcessor.from_pretrained('facebook/webssl-mae1b-full2b-224')
model = ViTModel.from_pretrained('facebook/webssl-mae1b-full2b-224').cuda().eval()

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt").to('cuda')
with torch.no_grad():
    outputs = model(**inputs)

# Extract features from the encoder
encoder_hidden_states = outputs.last_hidden_state

📄 ライセンス

このモデルは cc-by-nc-4.0 ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}