V

Vit Gopt 16 SigLIP2 256

Developed by timm
基于WebLI数据集训练的SigLIP 2视觉语言模型,适用于零样本图像分类任务。
Downloads 43.20k
Release Time : 2/21/2025

Model Overview

该模型是一个对比式图像-文本模型,主要用于零样本图像分类。它已从Big Vision的原始JAX检查点转换为适用于OpenCLIP的版本。

Model Features

SigLIP 2架构
采用改进的SigLIP 2架构,具有更好的语义理解、定位和密集特征提取能力。
多语言支持
支持多语言文本输入(基于论文推断)。
零样本分类
无需微调即可执行图像分类任务。

Model Capabilities

零样本图像分类
图像-文本对比学习
多语言理解

Use Cases

图像理解
零样本图像分类
无需特定训练即可对图像进行分类
示例中显示能正确识别贝涅饼等食物
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase