webssl - dino3b - full2b - 224オープンソースビジュアルモデル - 無料でデプロイして強力なビジュアル表現を学ぶ

Home

Webssl Dino3b Full2b 224

Developed by facebook

これはDINOv2自己教師あり学習により20億のウェブ画像でトレーニングされた30億パラメータの視覚Transformerモデルで、言語監督なしで強力な視覚表現を学習できます。

画像分類

Transformers

#自己教師あり視覚表現 #30億パラメータViT #言語監督なし

Downloads 72

Release Time : 4/25/2025

Model Overview

このモデルは純粋な視覚学習が様々な視覚タスクで言語監督モデルの性能に匹敵またはそれを超えることを証明し、従来の視覚ベンチマークやマルチモーダルタスクに適しています。

Model Features

大規模自己教師あり学習

20億のウェブ画像でトレーニングされ、言語監督なしで強力な視覚表現を学習

高性能視覚モデル

様々な視覚タスクで言語監督モデルの性能に匹敵またはそれを超える

マルチタスク適応性

従来の視覚ベンチマークや視覚質問応答、OCR、図表理解などのマルチモーダルタスクに適用可能

Model Capabilities

画像特徴抽出

視覚表現学習

マルチモーダルタスク処理

Use Cases

コンピュータビジョン

画像分類

画像分類タスクに使用

従来の視覚ベンチマークで優れた性能を発揮

視覚質問応答

視覚的理解を必要とする質問応答タスクを処理

ドキュメント分析

OCR

光学文字認識アプリケーション

図表理解

図表の内容を解析・理解

🚀 Web-SSL DINO ViT-3B: 2B MetaCLIP data, 224 Resolution

このモデルは、言語の監督なしでウェブ規模の画像データを用いてDINOv2の自己教師付き学習で学習された、30億パラメータのVision Transformer (ViT) です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

🚀 クイックスタート

Web-SSL DINO 3Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習によって学習された、30億パラメータのVision Transformerモデルです。このモデルは、適切にスケールされた純粋な視覚学習が、CLIPのような言語監督モデルの性能と同等またはそれ以上の性能を、様々なビジョンタスクで発揮できることを示しています。従来のビジョンベンチマークや、視覚的質問応答、OCRやチャート理解などのマルチモーダルタスクの両方で良好な性能を発揮します。

✨ 主な機能

言語の監督なしでウェブ規模の画像データを用いた自己教師付き学習
様々なビジョンタスクでCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮
従来のビジョンベンチマークやマルチモーダルタスクで良好な性能を発揮

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	ViT (3072 width, 26 depth, 24 heads)
パラメータ数	3B
解像度	224×224 pixels
学習方法	MetaCLIPウェブデータからの20億枚の画像サンプルを用いた自己教師付きWeb-DINO

モデルの説明

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📄 ライセンス

このモデルは cc-by-nc-4.0 ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}