W

Webssl Dino300m Full2b 224

由facebook開發
基於20億MetaCLIP數據的224分辨率視覺Transformer模型,採用DINOv2自監督學習方法訓練
下載量 503
發布時間 : 4/25/2025

模型概述

這是一個參數量達3億的視覺Transformer模型,通過自監督學習在20億網絡圖像上訓練而成,無需語言監督,適用於各種視覺任務。

模型特點

大規模自監督學習
基於20億網絡圖像進行訓練,全程無需語言監督
高性能視覺表徵
在各種視覺任務上的表現可媲美甚至超越語言監督模型
高分辨率處理
支持224×224像素分辨率輸入

模型能力

圖像特徵提取
視覺表徵學習
圖像分類
目標檢測

使用案例

計算機視覺
圖像分類
利用模型提取的特徵進行圖像分類任務
目標檢測
結合檢測頭實現高效目標檢測
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase