vit_base_patch32_clip_224.metaclip_400m開源視覺語言模型

Home

Vit Base Patch32 Clip 224.metaclip 400m

Developed by timm

基於MetaCLIP-400M數據集訓練的視覺語言模型，支持零樣本圖像分類任務

圖像分類

Safetensors

#零樣本圖像分類 #多模態預訓練 #快速推理

Downloads 2,406

Release Time : 10/23/2024

Model Overview

這是一個雙用途的視覺語言模型，可在OpenCLIP和timm框架中使用，主要用於零樣本圖像分類任務。

Model Features

雙框架支持

同時兼容OpenCLIP和timm框架，提供靈活的使用方式

零樣本學習能力

無需特定任務訓練即可執行圖像分類任務

快速推理

基於ViT-B-32架構優化，提供高效的推理速度

Model Capabilities

零樣本圖像分類

圖像特徵提取

跨模態理解

Use Cases

計算機視覺

通用圖像分類

對未知類別的圖像進行分類而無需特定訓練

在多種圖像分類任務中表現良好

內容審核

識別圖像中的不當內容

多模態應用

圖文匹配

評估圖像與文本描述的匹配程度

屬性	詳情
模型類型	零樣本圖像分類模型
訓練數據	MetaCLIP - 400M

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit Base Patch32 Clip 224.metaclip 400m

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 vit_base_patch32_clip_224.metaclip_400m模型卡片

🚀 快速開始

📚 詳細文檔

模型詳情

📄 許可證