W

Webssl Dino5b Full2b 224

Developed by facebook
50亿参数的视觉Transformer模型,通过20亿网络图像的自监督学习训练而成,无需语言监督即可在各种视觉任务中表现优异。
Downloads 35
Release Time : 4/25/2025

Model Overview

基于DINOv2自监督学习方法训练的视觉Transformer模型,证明纯视觉学习方法在多模态任务中可媲美语言监督模型。

Model Features

无语言监督学习
全程无需语言监督,仅通过20亿网络图像进行自监督训练
大规模参数
50亿参数的视觉Transformer架构,具备强大的表征能力
多任务适应性
在传统视觉基准测试和多模态任务中均表现优异

Model Capabilities

图像特征提取
视觉问答
OCR识别
图表理解

Use Cases

计算机视觉
图像分类
利用模型提取的图像特征进行分类任务
目标检测
通过模型的分块标记特征进行目标定位
多模态应用
视觉问答
结合文本模型实现图像内容问答系统
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase