S

Style 250412.vit Base Patch16 Siglip 384.v2 Webli

由 p1atdev 开发
基于Vision Transformer架构的视觉模型,采用SigLIP(Sigmoid Loss for Language-Image Pretraining)训练方法,适用于图像理解任务。
下载量 66
发布时间 : 4/12/2025

模型简介

该模型是一个基于Vision Transformer架构的视觉模型,通过SigLIP方法在大规模网络图像数据上进行预训练,擅长图像分类、检索等视觉理解任务。

模型特点

SigLIP预训练
采用Sigmoid损失函数进行语言-图像对比学习,相比传统Softmax方法更高效
大规模数据训练
在WebLI v2数据集上预训练,包含数十亿网络图像
高分辨率处理
支持384x384像素输入,适合需要精细视觉特征的任务

模型能力

图像特征提取
零样本图像分类
跨模态检索

使用案例

内容检索
基于文本的图像搜索
使用文本查询检索相关图像
在WebLI基准测试中表现优异
图像分类
零样本分类
无需微调即可对新类别进行分类
在ImageNet等基准测试中表现良好
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase