Webssl Dino2b Full2b 224
W
Webssl Dino2b Full2b 224
由facebook開發
20億參數視覺Transformer模型,通過純視覺自監督學習在20億網絡圖像上訓練而成,在多模態任務中表現優異
下載量 50
發布時間 : 4/25/2025
模型概述
這是一個基於DINOv2自監督學習框架訓練的20億參數視覺Transformer模型,無需語言監督,在各類視覺任務中達到或超越語言監督模型的性能
模型特點
純視覺自監督學習
無需語言監督,僅通過視覺數據進行訓練
大規模訓練
在20億網絡圖像樣本上進行訓練
高性能表現
在傳統視覺基準測試和多模態任務中表現優異
雙注意力實現
支持'eager'和'sdpa'兩種注意力實現方式
模型能力
圖像特徵提取
視覺表徵學習
多模態任務處理
視覺問答
OCR識別
圖表理解
使用案例
計算機視覺
圖像分類
利用模型提取的圖像特徵進行分類任務
達到或超越語言監督模型的性能
目標檢測
通過模型的分塊標記特徵進行目標定位
多模態應用
視覺問答
結合語言模型實現圖像內容問答
表現優異
圖表理解
解析和理解圖表中的視覺信息
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98