webssl-dino2b-heavy2b-224オープンソースビジュアルモデル - 無料でデプロイ可能、グラフとテキストの理解能力を最適化

Home

Webssl Dino2b Heavy2b 224

Developed by facebook

20億パラメータの自己教師あり視覚Transformerモデル、厳選されたウェブ画像データでトレーニングされ、特に図表とテキスト理解能力を最適化

画像分類

Transformers

#20億パラメータ視覚モデル #自己教師あり学習 #図表テキスト理解

Downloads 24

Release Time : 4/25/2025

Model Overview

これは自己教師あり学習によって厳選されたウェブスケールの画像データでトレーニングされた視覚Transformerモデルで、特に図表、表、読み取り可能な文書に最適化されており、OCRや図表理解タスクで優れた性能を発揮します

Model Features

厳選されたトレーニングデータ

元のMetaCLIPデータセットの1.3%のみの高品質画像サブセットを使用してトレーニングされ、特に図表、表、読み取り可能な文書を含む

自己教師あり学習

DINOv2自己教師あり学習手法を採用し、言語監督なしで強力な視覚表現を学習

大規模パラメータ

20億パラメータの視覚Transformerアーキテクチャにより、強力な特徴抽出能力を提供

OCR能力の最適化

テキストと図表理解に特に最適化され、関連タスクで顕著な性能を発揮

Model Capabilities

画像特徴抽出

視覚表現学習

図表理解

テキスト検出

表認識

Use Cases

文書処理

表認識

画像から表の構造と内容を抽出

高精度な表検出と認識

OCR強化

画像内のテキスト認識精度を向上

複雑な背景でのテキスト認識性能向上

視覚理解

図表分析

画像内の様々な図表タイプとデータを理解

正確な図表分類とデータ抽出

🚀 Web-SSL DINO ViT-2B: Heavy Filtered 2B MetaCLIP data, 224 Resolution

このモデルは、言語の監督なしで高度にフィルタリングされたウェブ規模の画像データを使用して、DINOv2の自己教師あり学習で学習された20億個のパラメータを持つVision Transformer (ViT) です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

🚀 クイックスタート

Web-SSL DINO 2Bは、言語の監督なしで高度にフィルタリングされたウェブ画像を使用して自己教師あり学習で学習された20億個のパラメータを持つVision Transformerモデルです。

✨ 主な機能

「heavy2b」という指定は、元のMetaCLIPデータセットのわずか1.3%を占める、チャート、テーブル、および読み取り可能なテキストを含むドキュメントを明示的に含む画像のサブセットでの学習を示しています。
この重点的なフィルタリングにより、OCRとチャート理解能力が大幅に向上し、他のビジョンタスクでも高い性能を維持します。
このモデルは、適切にスケーリングされた純粋な視覚学習が、様々なビジョンタスクでCLIPのような言語監督モデルの性能と匹敵するか、それを上回ることができることを示しています。

📦 インストール

このドキュメントには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-heavy2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-heavy2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	Vision Transformer (ViT)
アーキテクチャ	ViT (2688 width, 24 depth, 21 heads)
パラメータ数	2B
解像度	224×224ピクセル
学習方法	高度にフィルタリングされたMetaCLIPデータを使用した自己教師ありWeb-DINO

モデルの説明

WebSSL Model Overview

🔧 技術詳細

このドキュメントには具体的な技術詳細が記載されていないため、このセクションは省略されます。

📄 ライセンス

このモデルはCC BY-NC 4.0ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}