W

Webssl Dino1b Full2b 224

由facebook開發
這是一個通過DINOv2自監督學習在20億網絡圖像上訓練的10億參數視覺Transformer模型,無需語言監督即可學習視覺表示。
下載量 1,172
發布時間 : 4/25/2025

模型概述

該模型證明純視覺學習在規模適當時可以達到或超過語言監督模型的性能,適用於各種視覺任務。

模型特點

大規模自監督學習
基於20億網絡圖像進行訓練,無需語言監督
高性能視覺表示
在多種視覺任務上達到或超過語言監督模型的性能
高效架構設計
採用ViT架構,寬度1536,深度40,24個頭

模型能力

圖像特徵提取
視覺表示學習
圖像分類
目標檢測

使用案例

計算機視覺
圖像分類
使用模型提取的圖像特徵進行分類任務
目標檢測
利用模型學習到的視覺表示進行目標檢測
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase