webssl - dino5b - full2b - 224オープンソースビジョンモデル - 無料でデプロイ可能、多様なビジョンタスクで優れた性能を発揮

ホーム

Webssl Dino5b Full2b 224

facebookによって開発

50億パラメータの視覚Transformerモデル、20億のウェブ画像による自己監視学習で訓練され、言語監視なしで様々な視覚タスクで優れた性能を発揮します。

画像分類

Transformers

#50億パラメータ視覚Transformer #言語監視不要の学習 #ウェブスケール自己学習

ダウンロード数 35

リリース時間 : 4/25/2025

モデル概要

DINOv2自己監視学習手法で訓練された視覚Transformerモデルで、純粋な視覚学習手法がマルチモーダルタスクにおいて言語監視モデルに匹敵することを証明しています。

モデル特徴

言語監視不要の学習

全過程で言語監視を必要とせず、20億のウェブ画像のみで自己監視訓練を実施

大規模パラメータ

50億パラメータの視覚Transformerアーキテクチャで、強力な表現能力を備えています

マルチタスク適応性

従来の視覚ベンチマークとマルチモーダルタスクの両方で優れた性能を発揮

モデル能力

画像特徴抽出

視覚質問応答

OCR認識

図表理解

使用事例

コンピュータビジョン

画像分類

モデルが抽出した画像特徴を利用した分類タスク

物体検出

モデルのパッチトークン特徴を通じた物体位置特定

マルチモーダル応用

視覚質問応答

テキストモデルと組み合わせた画像内容質問応答システム

🚀 Web-SSL DINO ViT-5B: 2B MetaCLIPデータ、224解像度

このモデルは、言語の監督なしでウェブ規模の画像データを用いてDINOv2自己教師付き学習で学習された、50億パラメータのVision Transformer (ViT) です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

🚀 クイックスタート

Web-SSL DINO 5Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習によって学習された、50億パラメータのVision Transformerモデルです。このモデルは、適切にスケーリングされた純粋な視覚学習が、様々なビジョンタスクにおいてCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮できることを示しています。従来のビジョンベンチマークや、視覚的質問応答やOCR・チャート理解などのマルチモーダルタスクの両方で良好な性能を発揮します。

✨ 主な機能

言語の監督なしでウェブ規模の画像データを用いた自己教師付き学習により、高い汎化性能を持つ。
様々なビジョンタスクにおいて、言語監督モデルと同等またはそれ以上の性能を発揮する。
従来のビジョンベンチマークやマルチモーダルタスクの両方で良好な性能を発揮する。

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	ViT (3584幅、32深度、28ヘッド)
パラメータ数	5B
解像度	224×224ピクセル
学習方法	MetaCLIPウェブデータからの20億枚の画像サンプルを用いた自己教師付きWeb-DINO

モデルの説明

WebSSL Model Overview

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino5b-full2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino5b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📄 ライセンス

このモデルはCC BY-NC 4.0ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}