W

Webssl Dino2b Full2b 224

Developed by facebook
20億參數視覺Transformer模型,通過純視覺自監督學習在20億網絡圖像上訓練而成,在多模態任務中表現優異
Downloads 50
Release Time : 4/25/2025

Model Overview

這是一個基於DINOv2自監督學習框架訓練的20億參數視覺Transformer模型,無需語言監督,在各類視覺任務中達到或超越語言監督模型的性能

Model Features

純視覺自監督學習
無需語言監督,僅通過視覺數據進行訓練
大規模訓練
在20億網絡圖像樣本上進行訓練
高性能表現
在傳統視覺基準測試和多模態任務中表現優異
雙注意力實現
支持'eager'和'sdpa'兩種注意力實現方式

Model Capabilities

圖像特徵提取
視覺表徵學習
多模態任務處理
視覺問答
OCR識別
圖表理解

Use Cases

計算機視覺
圖像分類
利用模型提取的圖像特徵進行分類任務
達到或超越語言監督模型的性能
目標檢測
通過模型的分塊標記特徵進行目標定位
多模態應用
視覺問答
結合語言模型實現圖像內容問答
表現優異
圖表理解
解析和理解圖表中的視覺信息
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase