🚀 Web-SSL DINO ViT-1B: 2B MetaCLIPデータ、224解像度
このモデルは、言語の監督なしでウェブ規模の画像データを用いてDINOv2の自己教師付き学習により学習された、10億個のパラメータを持つVision Transformer (ViT) です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。
🚀 クイックスタート
Web-SSL DINO 1Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習により学習された、10億個のパラメータを持つVision Transformerモデルです。このモデルは、適切にスケールアップされた純粋な視覚学習が、様々なビジョンタスクにおいてCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮できることを示しています。
✨ 主な機能
- 言語の監督なしでウェブ規模の画像データを用いた自己教師付き学習
- 様々なビジョンタスクにおいて、言語監督モデルと同等またはそれ以上の性能を発揮
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
基本的な使用法
from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image
processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino1b-full2b-224')
model = Dinov2Model.from_pretrained('facebook/webssl-dino1b-full2b-224')
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]
patch_features = outputs.last_hidden_state[:, 1:]
📚 ドキュメント
モデルの詳細
属性 |
詳情 |
アーキテクチャ |
ViT (幅1536、深さ40、ヘッド数24) |
パラメータ数 |
10億 |
解像度 |
224×224ピクセル |
学習方法 |
MetaCLIPのウェブデータからの20億個の画像サンプルを用いた自己教師付きWeb-DINO |
モデルの説明
Web-SSL DINO 1Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習により学習された、10億個のパラメータを持つVision Transformerモデルです。このモデルは、適切にスケールアップされた純粋な視覚学習が、様々なビジョンタスクにおいてCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮できることを示しています。
🔧 技術詳細
このREADMEには具体的な技術詳細が記載されていないため、このセクションは省略されます。
📄 ライセンス
このライブラリは、CC BY-NC 4.0ライセンスの下で提供されています。
引用
@article{fan2025scaling,
title={Scaling Language-Free Visual Representation Learning},
author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
year={2025},
eprint={2504.01017},
archivePrefix={arXiv},
primaryClass={cs.CV}
}