webssl - dino2b - full2b - 224オープンソースビジュアルモデル - 無料デプロイで多様なモーダルタスクの効率的な遂行をサポート

ホーム

Webssl Dino2b Full2b 224

facebookによって開発

20億パラメータの視覚Transformerモデル、純粋な視覚的教師なし学習により20億のウェブ画像でトレーニングされ、マルチモーダルタスクで優れたパフォーマンスを発揮

画像分類

Transformers

#20億パラメータ視覚モデル #言語なし教師なし学習 #ウェブ規模画像トレーニング

ダウンロード数 50

リリース時間 : 4/25/2025

モデル概要

これはDINOv2教師なし学習フレームワークでトレーニングされた20億パラメータの視覚Transformerモデルで、言語監視なしで、さまざまな視覚タスクにおいて言語監視モデルの性能に匹敵またはそれを上回ります

モデル特徴

純粋な視覚的教師なし学習

言語監視なしで、視覚データのみでトレーニング

大規模トレーニング

20億のウェブ画像サンプルでトレーニング

高性能

従来の視覚ベンチマークとマルチモーダルタスクで優れたパフォーマンス

二重アテンション実装

'eager'と'sdpa'の2つのアテンション実装方法をサポート

モデル能力

画像特徴抽出

視覚表現学習

マルチモーダルタスク処理

視覚的質問応答

OCR認識

チャート理解

使用事例

コンピュータビジョン

画像分類

モデルが抽出した画像特徴を利用して分類タスクを実行

言語監視モデルの性能に匹敵またはそれを上回る

物体検出

モデルのパッチトークン特徴を利用して物体位置特定

マルチモーダルアプリケーション

視覚的質問応答

言語モデルと組み合わせて画像内容の質問応答を実現

優れたパフォーマンス

チャート理解

チャート内の視覚情報を解析・理解

🚀 Web-SSL DINO ViT-2B: 2B MetaCLIPデータ、224解像度

20億個のパラメータを持つビジョントランスフォーマー（ViT）で、言語の監督なしでウェブスケールの画像データを用いてDINOv2の自己教師付き学習で学習されました。論文"Scaling Language-Free Visual Representation Learning" (Fan et al., 2025)で紹介されています。

🚀 クイックスタート

Web-SSL DINO 2Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習によって学習された、20億個のパラメータを持つビジョントランスフォーマーモデルです。このモデルは、純粋な視覚学習を適切に拡張することで、CLIPのような言語監督モデルの性能に匹敵するか、それを上回ることができることを示しています。様々なビジョンタスクで良好な性能を発揮します。

✨ 主な機能

言語の監督なしでウェブスケールの画像データを用いて学習されたビジョントランスフォーマーモデル。
純粋な視覚学習により、CLIPなどの言語監督モデルに匹敵するか、それを上回る性能を発揮。
伝統的なビジョンベンチマークや、視覚的質問応答、OCRやチャート理解などのマルチモーダルタスクで良好な性能を示す。

📚 ドキュメント

モデルの詳細

アーキテクチャ：ViT (幅2688、深さ24、ヘッド数21)
パラメータ：20億
解像度：224×224ピクセル
学習：MetaCLIPのウェブデータからの20億個の画像サンプルを用いた自己教師付きWeb-DINO

モデルの説明

Web-SSL DINO 2Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習によって学習された、20億個のパラメータを持つビジョントランスフォーマーモデルです。このモデルは、純粋な視覚学習を適切に拡張することで、CLIPのような言語監督モデルの性能に匹敵するか、それを上回ることができることを示しています。伝統的なビジョンベンチマークや、視覚的質問応答、OCRやチャート理解などのマルチモーダルタスクで良好な性能を示します。

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino2b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino2b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📄 ライセンス

このモデルは、CC BY-NC 4.0ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}