W

Webssl Dino2b Full2b 224

由facebook開發
20億參數視覺Transformer模型,通過純視覺自監督學習在20億網絡圖像上訓練而成,在多模態任務中表現優異
下載量 50
發布時間 : 4/25/2025

模型概述

這是一個基於DINOv2自監督學習框架訓練的20億參數視覺Transformer模型,無需語言監督,在各類視覺任務中達到或超越語言監督模型的性能

模型特點

純視覺自監督學習
無需語言監督,僅通過視覺數據進行訓練
大規模訓練
在20億網絡圖像樣本上進行訓練
高性能表現
在傳統視覺基準測試和多模態任務中表現優異
雙注意力實現
支持'eager'和'sdpa'兩種注意力實現方式

模型能力

圖像特徵提取
視覺表徵學習
多模態任務處理
視覺問答
OCR識別
圖表理解

使用案例

計算機視覺
圖像分類
利用模型提取的圖像特徵進行分類任務
達到或超越語言監督模型的性能
目標檢測
通過模型的分塊標記特徵進行目標定位
多模態應用
視覺問答
結合語言模型實現圖像內容問答
表現優異
圖表理解
解析和理解圖表中的視覺信息
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase