webssl-dino3b-heavy2b-224オープンソースビジュアルモデル - 高精度な画像認識と分析をサポート

ホーム

Webssl Dino3b Heavy2b 224

facebookによって開発

20億規模の厳選MetaCLIPデータで訓練された30億パラメータの視覚Transformerモデル、DINOv2自己教師あり学習フレームワークを採用

画像分類

Transformers

#30億パラメータ視覚モデル #言語なし教師なし学習 #図表ドキュメント理解

ダウンロード数 26

リリース時間 : 4/25/2025

モデル概要

これは自己教師あり学習で訓練された視覚Transformerモデルで、画像理解タスクに特化しており、特にテキストを含む図表やドキュメント画像の処理に優れています

モデル特徴

厳選データ訓練

元のMetaCLIPデータセットの1.3%のみの高品質データサブセットを使用して訓練、特に読み取り可能なテキストを含む図表、表、ドキュメント画像を含む

自己教師あり学習

DINOv2フレームワークを使用して訓練、言語監督なしで強力な視覚表現を学習

大規模パラメータ

30億パラメータの視覚Transformerアーキテクチャ、複雑な視覚特徴を捉えることが可能

OCR強化

テキストと図表理解に最適化され、他の視覚タスクの性能を維持しながらOCR能力を大幅に向上

モデル能力

画像特徴抽出

視覚表現学習

図表理解

ドキュメント画像分析

OCR関連タスク

使用事例

ドキュメント処理

表認識

スキャンされたドキュメントから表構造と内容を抽出

高精度な表認識能力

図表理解

図表画像を分析しキー情報を抽出

正確な図表内容解析

コンピュータビジョン

画像検索

視覚特徴に基づく画像検索

効率的な画像類似度マッチング

視覚表現学習

下流タスク向けに事前訓練された視覚特徴を提供

強力な転移学習能力

🚀 Web-SSL DINO ViT-3B: Heavy Filtered 2B MetaCLIP data, 224 Resolution

このモデルは、言語の監督なしで高度にフィルタリングされたウェブ規模の画像データを使用して、DINOv2の自己教師付き学習で学習された30億パラメータのVision Transformer（ViT）です。論文"Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

🚀 クイックスタート

このモデルは、言語の監督なしで高度にフィルタリングされたウェブ画像を使用して自己教師付き学習で学習されたVision Transformerモデルです。以下に使用方法のコード例を示します。

✨ 主な機能

高度にフィルタリングされたウェブ画像を使用して学習されているため、OCRやチャートの理解能力が向上しています。
言語の監督なしで学習されているため、純粋な視覚学習による表現能力を持っています。
様々なビジョンタスクで、CLIPのような言語監督モデルと同等またはそれ以上の性能を発揮します。

📦 インストール

このモデルはtransformersライブラリを使用して利用できます。transformersライブラリがインストールされていない場合は、以下のコマンドでインストールしてください。

pip install transformers

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-heavy2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	ViT (3072 width, 26 depth, 24 heads)
パラメータ数	3B
解像度	224×224 pixels
学習方法	高度にフィルタリングされたMetaCLIPデータを使用した自己教師付きWeb-DINO

モデルの説明

Web-SSL DINO 3Bは、言語の監督なしで高度にフィルタリングされたウェブ画像を使用して自己教師付き学習で学習された30億パラメータのVision Transformerモデルです。"heavy2b"という指定は、チャート、テーブル、および読み取り可能なテキストを含むドキュメントを含む画像のサブセットで学習されたことを示しており、元のMetaCLIPデータセットのわずか1.3%を占めます。この集中的なフィルタリングにより、OCRとチャートの理解能力が大幅に向上し、他のビジョンタスクでも高い性能を維持しています。このモデルは、適切にスケーリングされた純粋な視覚学習が、様々なビジョンタスクでCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮できることを示しています。

📄 ライセンス

このモデルはCC BY-NC 4.0ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}