webssl - dino1b - full2b - 224オープンソースビジュアルモデル - 言語監督不要のビジュアル表現学習

Home

Webssl Dino1b Full2b 224

Developed by facebook

これはDINOv2自己教師あり学習により20億のウェブ画像でトレーニングされた10億パラメータのVision Transformerモデルで、言語監督なしで視覚表現を学習できます。

画像分類

Transformers

#自己教師あり視覚学習 #億規模パラメータ #言語監督なし

Downloads 1,172

Release Time : 4/25/2025

Model Overview

このモデルは、適切なスケールであれば純粋な視覚学習が言語監督モデルの性能に匹敵またはそれを超えることを証明し、様々な視覚タスクに適用可能です。

Model Features

大規模自己教師あり学習

20億のウェブ画像でトレーニング、言語監督不要

高性能視覚表現

様々な視覚タスクで言語監督モデルの性能に匹敵または超越

効率的なアーキテクチャ設計

ViTアーキテクチャ採用、幅1536、深さ40、24ヘッド

Model Capabilities

画像特徴抽出

視覚表現学習

画像分類

物体検出

Use Cases

コンピュータビジョン

画像分類

モデルが抽出した画像特徴を使用して分類タスクを実行

物体検出

モデルが学習した視覚表現を利用して物体検出を実施

🚀 Web-SSL DINO ViT-1B: 2B MetaCLIPデータ、224解像度

このモデルは、言語の監督なしでウェブ規模の画像データを用いてDINOv2の自己教師付き学習により学習された、10億個のパラメータを持つVision Transformer (ViT) です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

🚀 クイックスタート

Web-SSL DINO 1Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習により学習された、10億個のパラメータを持つVision Transformerモデルです。このモデルは、適切にスケールアップされた純粋な視覚学習が、様々なビジョンタスクにおいてCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮できることを示しています。

✨ 主な機能

言語の監督なしでウェブ規模の画像データを用いた自己教師付き学習
様々なビジョンタスクにおいて、言語監督モデルと同等またはそれ以上の性能を発揮

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino1b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino1b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 ドキュメント

モデルの詳細

属性	詳情
アーキテクチャ	ViT (幅1536、深さ40、ヘッド数24)
パラメータ数	10億
解像度	224×224ピクセル
学習方法	MetaCLIPのウェブデータからの20億個の画像サンプルを用いた自己教師付きWeb-DINO

モデルの説明

🔧 技術詳細

このREADMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。

📄 ライセンス

このライブラリは、CC BY-NC 4.0ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}