W

Webssl Dino5b Full2b 224

由facebook開發
50億參數的視覺Transformer模型,通過20億網絡圖像的自監督學習訓練而成,無需語言監督即可在各種視覺任務中表現優異。
下載量 35
發布時間 : 4/25/2025

模型概述

基於DINOv2自監督學習方法訓練的視覺Transformer模型,證明純視覺學習方法在多模態任務中可媲美語言監督模型。

模型特點

無語言監督學習
全程無需語言監督,僅通過20億網絡圖像進行自監督訓練
大規模參數
50億參數的視覺Transformer架構,具備強大的表徵能力
多任務適應性
在傳統視覺基準測試和多模態任務中均表現優異

模型能力

圖像特徵提取
視覺問答
OCR識別
圖表理解

使用案例

計算機視覺
圖像分類
利用模型提取的圖像特徵進行分類任務
目標檢測
通過模型的分塊標記特徵進行目標定位
多模態應用
視覺問答
結合文本模型實現圖像內容問答系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase