vit_base_patch32_clip_224.laion400m_e32开源视觉模型 - 兼容双框架用于图像分析处理

Home

Vit Base Patch32 Clip 224.laion400m E32

Developed by timm

基于LAION-400M数据集训练的Vision Transformer模型，支持OpenCLIP和timm双框架使用

图像分类

Safetensors

Open Source License:MIT #零样本图像分类 #多模态预训练 #LAION-400M数据集

Downloads 5,957

Release Time : 10/23/2024

Model Overview

这是一个基于Vision Transformer架构的视觉语言模型，主要用于零样本图像分类任务。模型在LAION-400M数据集上训练，支持OpenCLIP和timm两种框架使用。

Model Features

双框架兼容

同时支持OpenCLIP和timm框架使用，提供更灵活的应用场景

零样本学习

无需微调即可直接应用于新的图像分类任务

大规模预训练

在LAION-400M大规模数据集上预训练，具有强大的视觉表示能力

Model Capabilities

图像分类

零样本学习

视觉特征提取

Use Cases

图像理解

零样本图像分类

无需特定类别训练数据即可对新类别图像进行分类

图像检索

基于视觉相似性的图像搜索

多模态应用

图文匹配

判断图像与文本描述是否匹配

属性	详情
数据集	LAION - 400M

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit Base Patch32 Clip 224.laion400m E32

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 vit_base_patch32_clip_224.laion400m_e32模型卡片

🚀 快速开始

📚 详细文档

模型详情

📄 许可证