W

Webssl Dino5b Full2b 224

由 facebook 开发
50亿参数的视觉Transformer模型,通过20亿网络图像的自监督学习训练而成,无需语言监督即可在各种视觉任务中表现优异。
下载量 35
发布时间 : 4/25/2025

模型简介

基于DINOv2自监督学习方法训练的视觉Transformer模型,证明纯视觉学习方法在多模态任务中可媲美语言监督模型。

模型特点

无语言监督学习
全程无需语言监督,仅通过20亿网络图像进行自监督训练
大规模参数
50亿参数的视觉Transformer架构,具备强大的表征能力
多任务适应性
在传统视觉基准测试和多模态任务中均表现优异

模型能力

图像特征提取
视觉问答
OCR识别
图表理解

使用案例

计算机视觉
图像分类
利用模型提取的图像特征进行分类任务
目标检测
通过模型的分块标记特征进行目标定位
多模态应用
视觉问答
结合文本模型实现图像内容问答系统
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase