webssl - dino3b - full2b - 224オープンソースビジュアルモデル - 無料でデプロイして強力なビジュアル表現を学ぶ

ホーム

Webssl Dino3b Full2b 224

facebookによって開発

これはDINOv2自己教師あり学習により20億のウェブ画像でトレーニングされた30億パラメータの視覚Transformerモデルで、言語監督なしで強力な視覚表現を学習できます。

画像分類

Transformers

#自己教師あり視覚表現 #30億パラメータViT #言語監督なし

ダウンロード数 72

リリース時間 : 4/25/2025

モデル概要

このモデルは純粋な視覚学習が様々な視覚タスクで言語監督モデルの性能に匹敵またはそれを超えることを証明し、従来の視覚ベンチマークやマルチモーダルタスクに適しています。

モデル特徴

大規模自己教師あり学習

20億のウェブ画像でトレーニングされ、言語監督なしで強力な視覚表現を学習

高性能視覚モデル

様々な視覚タスクで言語監督モデルの性能に匹敵またはそれを超える

マルチタスク適応性

従来の視覚ベンチマークや視覚質問応答、OCR、図表理解などのマルチモーダルタスクに適用可能

モデル能力

画像特徴抽出

視覚表現学習

マルチモーダルタスク処理

使用事例

コンピュータビジョン

画像分類

画像分類タスクに使用

従来の視覚ベンチマークで優れた性能を発揮

視覚質問応答

視覚的理解を必要とする質問応答タスクを処理

ドキュメント分析

OCR

光学文字認識アプリケーション

図表理解

図表の内容を解析・理解

🚀 Web-SSL DINO ViT-3B: 2B MetaCLIP data, 224 Resolution

このモデルは、言語の監督なしでウェブ規模の画像データを用いてDINOv2の自己教師付き学習で学習された、30億パラメータのVision Transformer (ViT) です。論文 "Scaling Language-Free Visual Representation Learning" (Fan et al., 2025) で紹介されています。

🚀 クイックスタート

Web-SSL DINO 3Bは、言語の監督なしで20億枚のウェブ画像を用いた自己教師付き学習によって学習された、30億パラメータのVision Transformerモデルです。このモデルは、適切にスケールされた純粋な視覚学習が、CLIPのような言語監督モデルの性能と同等またはそれ以上の性能を、様々なビジョンタスクで発揮できることを示しています。従来のビジョンベンチマークや、視覚的質問応答、OCRやチャート理解などのマルチモーダルタスクの両方で良好な性能を発揮します。

✨ 主な機能

言語の監督なしでウェブ規模の画像データを用いた自己教師付き学習
様々なビジョンタスクでCLIPのような言語監督モデルと同等またはそれ以上の性能を発揮
従来のビジョンベンチマークやマルチモーダルタスクで良好な性能を発揮

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	ViT (3072 width, 26 depth, 24 heads)
パラメータ数	3B
解像度	224×224 pixels
学習方法	MetaCLIPウェブデータからの20億枚の画像サンプルを用いた自己教師付きWeb-DINO

モデルの説明

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino3b-full2b-224')
# 'eager' and 'sdpa' attn_implementation supported
model = Dinov2Model.from_pretrained('facebook/webssl-dino3b-full2b-224')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)

cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📄 ライセンス

このモデルは cc-by-nc-4.0 ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}