W

Webssl Dino7b Full8b 518

Developed by facebook
基于80亿MetaCLIP数据训练的70亿参数视觉Transformer模型,采用DINOv2自监督学习框架,无需语言监督
Downloads 157
Release Time : 4/25/2025

Model Overview

这是一个通过自监督学习在网页级图像数据上训练的视觉Transformer模型,证明纯视觉学习方案在各类视觉任务上可达到甚至超越语言监督模型的性能

Model Features

纯视觉自监督学习
完全无需语言监督,仅通过网页图像数据进行训练
大规模训练数据
基于80亿MetaCLIP网络图像样本训练
高分辨率处理
支持518×518像素的高分辨率图像输入
多任务适应性
在传统视觉基准测试及多模态任务中表现卓越

Model Capabilities

图像特征提取
视觉表征学习
视觉问答
OCR识别
图表理解

Use Cases

计算机视觉
图像分类
用于图像分类任务的特征提取
在传统视觉基准测试中表现卓越
目标检测
作为目标检测任务的基础特征提取器
多模态应用
视觉问答
用于需要理解图像内容的问答系统
文档理解
用于OCR和文档布局分析
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase