webssl-dino7b-full8b-518オープンソースビジュアルモデル - 大量データに基づく言語非依存訓練

ホーム

Webssl Dino7b Full8b 518

facebookによって開発

80億のMetaCLIPデータで訓練された70億パラメータの視覚Transformerモデル、DINOv2自己監視学習フレームワークを採用、言語監視不要

画像分類

Transformers

#言語なし視覚学習 #518高解像度 #80億データで訓練

ダウンロード数 157

リリース時間 : 4/25/2025

モデル概要

これは自己監視学習によってウェブレベルの画像データで訓練された視覚Transformerモデルで、純粋な視覚学習アプローチが様々な視覚タスクにおいて言語監視モデルの性能を達成または凌駕できることを証明しています

モデル特徴

純粋視覚自己監視学習

完全に言語監視不要、ウェブ画像データのみで訓練

大規模訓練データ

80億のMetaCLIPウェブ画像サンプルで訓練

高解像度処理

518×518ピクセルの高解像度画像入力をサポート

マルチタスク適応性

従来の視覚ベンチマーク及びマルチモーダルタスクで優れた性能

モデル能力

画像特徴抽出

視覚表現学習

視覚質問応答

OCR認識

図表理解

使用事例

コンピュータビジョン

画像分類

画像分類タスクの特徴抽出に使用

従来の視覚ベンチマークで優れた性能

物体検出

物体検出タスクの基本特徴抽出器として

マルチモーダル応用

視覚質問応答

画像内容を理解する必要がある質問応答システムに使用

文書理解

OCRと文書レイアウト分析に使用

🚀 Web-SSL DINO ViT-7B: 8B MetaCLIPデータ、解像度518

言語の監督なしでウェブ規模の画像データを用いてDINOv2自己教師あり学習で学習された70億パラメータのビジョントランスフォーマー（ViT）です。論文"Scaling Language-Free Visual Representation Learning" (Fan et al., 2025)で紹介されています。

🚀 クイックスタート

Web-SSL DINO 7Bは、言語の監督なしで80億枚のウェブ画像を用いて自己教師あり学習で学習された70億パラメータのビジョントランスフォーマーモデルです。このモデルは、適切にスケーリングされた純粋な視覚学習が、様々なビジョンタスクにおいてCLIPのような言語監督モデルの性能に匹敵または上回ることができることを示しています。従来のビジョンベンチマークと視覚的質問応答やOCRおよびチャート理解を含むマルチモーダルタスクの両方で優れた性能を発揮します。

✨ 主な機能

アーキテクチャ：ViT（幅4096、深さ32、ヘッド数32）
パラメータ：70億
解像度：518×518ピクセル
学習：MetaCLIPウェブデータからの80億枚の画像サンプルを使用した自己教師ありWeb-DINO

💻 使用例

基本的な使用法

from transformers import AutoImageProcessor, Dinov2Model
import torch
from PIL import Image

processor = AutoImageProcessor.from_pretrained('facebook/webssl-dino7b-full8b-518')
model = Dinov2Model.from_pretrained('facebook/webssl-dino7b-full8b-518')

# Process an image
image = Image.open('path/to/image.jpg')
inputs = processor(images=image, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
cls_features = outputs.last_hidden_state[:, 0]  # CLS token features
patch_features = outputs.last_hidden_state[:, 1:] # patch-wise token features

📚 ドキュメント

Web-SSL DINO 7Bモデルの概要を示す画像です。 WebSSL Model Overview

📄 ライセンス

このモデルはcc-by-nc-4.0ライセンスの下で提供されています。

引用

@article{fan2025scaling,
  title={Scaling Language-Free Visual Representation Learning}, 
  author={David Fan and Shengbang Tong and Jiachen Zhu and Koustuv Sinha and Zhuang Liu and Xinlei Chen and Michael Rabbat and Nicolas Ballas and Yann LeCun and Amir Bar and Saining Xie},
  year={2025},
  eprint={2504.01017},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}