W

Webssl Dino3b Full2b 224

由facebook開發
這是一個通過DINOv2自監督學習在20億網絡圖像上訓練的30億參數視覺Transformer模型,無需語言監督即可學習強大的視覺表徵。
下載量 72
發布時間 : 4/25/2025

模型概述

該模型證明純視覺學習可以在各種視覺任務中達到或超過語言監督模型的性能,適用於傳統視覺基準測試及多模態任務。

模型特點

大規模自監督學習
基於20億網絡圖像進行訓練,無需語言監督即可學習強大的視覺表徵
高性能視覺模型
在各種視覺任務中達到或超過語言監督模型的性能
多任務適用性
適用於傳統視覺基準測試以及視覺問答、OCR和圖表理解等多模態任務

模型能力

圖像特徵提取
視覺表徵學習
多模態任務處理

使用案例

計算機視覺
圖像分類
用於圖像分類任務
在傳統視覺基準測試中表現優異
視覺問答
處理需要視覺理解的問答任務
文檔分析
OCR
光學字符識別應用
圖表理解
解析和理解圖表內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase