V

Vit B 16 SigLIP

由 timm 开发
基于WebLI数据集训练的SigLIP(Sigmoid Loss for Language Image Pre-training)模型,用于零样本图像分类任务。
下载量 27.77k
发布时间 : 10/16/2023

模型简介

该模型是一个对比图像-文本模型,采用Sigmoid损失函数进行语言图像预训练,支持零样本图像分类任务。

模型特点

Sigmoid损失函数
采用Sigmoid损失函数进行语言图像预训练,相比传统Softmax损失函数在某些任务上表现更好。
零样本分类能力
无需特定任务的微调即可执行图像分类任务。
WebLI数据集训练
在WebLI大规模数据集上训练,具有广泛的视觉概念理解能力。

模型能力

图像-文本对比学习
零样本图像分类
图像特征提取

使用案例

图像分类
食品识别
识别图像中的食品类型,如甜甜圈、贝涅饼等。
可准确识别多种食品类型
动物识别
识别图像中的动物类型,如猫、狗等。
可准确识别常见动物
内容理解
图像内容描述
理解图像内容并匹配相关文本描述。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase