W

Webssl Dino3b Light2b 224

由facebook開發
30億參數的視覺Transformer模型,採用DINOv2自監督學習方法在輕過濾的網絡規模圖像數據上訓練,無需語言監督。
下載量 25
發布時間 : 4/25/2025

模型概述

這是一個基於ViT架構的視覺Transformer模型,通過自監督學習在輕過濾的網絡圖像上訓練,專注於純視覺表徵學習,無需語言監督。

模型特點

自監督學習
採用DINOv2自監督學習方法,無需語言監督即可學習有效的視覺表徵。
輕過濾數據訓練
使用輕過濾的MetaCLIP數據集訓練,保留了原始數據集中約50.3%的樣本,提升了OCR和圖表理解能力。
大規模參數
擁有30億參數的大規模視覺Transformer架構,能夠捕捉更豐富的視覺特徵。

模型能力

圖像特徵提取
視覺表徵學習
OCR能力增強
圖表理解

使用案例

計算機視覺
圖像分類
可用於圖像分類任務,提取有效的視覺特徵。
目標檢測
可作為目標檢測任務的基礎特徵提取器。
文檔分析
OCR增強
由於訓練數據的輕過濾特性,模型在OCR相關任務上表現優異。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase