webssl - mae700m - full2b - 224オープンソースビジョンモデル - 言語監督不要で画像を処理、幅広いアプリケーションで使用可能

ホーム

Webssl Mae700m Full2b 224

facebookによって開発

これは7億パラメータの視覚Transformerモデルで、マスク付き自己符号化器による自己教師あり学習手法を用いて、20億のウェブ画像で言語監督なしに訓練されています。

画像分類

Transformers

#教師なし視覚学習 #7億パラメータの大規模モデル #図表理解の最適化

ダウンロード数 15

リリース時間 : 4/25/2025

モデル概要

Web-SSL MAE ViT-Hは、視覚Transformerアーキテクチャに基づく大規模な視覚表現学習モデルで、大量のウェブ画像データで自己教師あり学習を行い、様々な視覚タスクに適用可能です。

モデル特徴

大規模自己教師あり学習

20億のMetaCLIPネットワークデータで訓練され、言語監督を必要としません

高性能視覚表現

様々な視覚タスクで優れた性能を発揮し、特にOCRや図表理解で顕著です

純粋な視覚学習

純粋な視覚学習が、適切な規模であれば言語監督モデルの性能に匹敵または凌駕できることを証明しています

モデル能力

画像特徴抽出

視覚表現学習

OCR認識

図表理解

使用事例

ドキュメント処理

OCRテキスト認識

画像からテキスト内容を抽出

OCRタスクで優れた性能を発揮

データ可視化

図表理解

図表の内容を分析・理解

図表理解タスクで顕著な性能

汎用視覚タスク

画像分類

画像内容を分類

従来の視覚ベンチマークで競争力のある性能

🚀 Web-SSL MAE ViT-H (700M): 2B MetaCLIPデータ、224解像度

このモデルは、言語の監督なしでウェブ規模の画像データを用いて、マスク付きオートエンコーダ（MAE）の自己教師あり学習で学習された、7億個のパラメータを持つビジョントランスフォーマー（ViT-H）です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

🚀 クイックスタート

Web-SSL MAE ViT-Hは、言語の監督なしで20億枚のウェブ画像を用いて、マスク付きオートエンコーダの自己教師あり学習で学習された、7億個のパラメータを持つビジョントランスフォーマーモデルです。このモデルは、適切に拡張すると、純粋な視覚学習が、様々なビジョンタスクにおいて、CLIPのような言語監督モデルと同等またはそれ以上の性能を発揮できることを示しています。Web-MAEは、OCRやチャート理解タスクで特に強い性能を発揮し、同時に従来のビジョンベンチマークやマルチモーダルタスクでも競争力のある性能を維持しています。

✨ 主な機能

言語の監督なしでウェブ規模の画像データを用いた自己教師あり学習
様々なビジョンタスクでCLIPなどの言語監督モデルと同等またはそれ以上の性能
OCRやチャート理解タスクで特に強い性能

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	ViT-H (Huge)
パラメータ数	700M
解像度	224×224ピクセル
学習方法	MetaCLIPウェブデータからの20億個の画像サンプルを用いた自己教師ありWeb-MAE

モデルの説明

WebSSL Model Overview

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, ViTModel
import torch
from PIL import Image

# Adjust the size, crop_size, etc. fields to your liking
processor = AutoImageProcessor.from_pretrained('facebook/webssl-mae700m-full2b-224')
model = ViTModel.from_pretrained('facebook/webssl-mae700m-full2b-224').cuda().eval()

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt").to('cuda')
with torch.no_grad():
    outputs = model(**inputs)

# Extract features from the encoder
encoder_hidden_states = outputs.last_hidden_state

📄 ライセンス

このライブラリは cc-by-nc-4.0 ライセンスの下で提供されています。

📚 引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}