vit_base_patch32_clip_256.datacompxl開源圖像特徵提取模型

Home

Vit Base Patch32 Clip 256.datacompxl

Developed by timm

基於CLIP架構的視覺Transformer模型，專注於圖像特徵提取，支持256x256分辨率輸入

圖像分類

Transformers

Open Source License:Apache-2.0 #CLIP視覺編碼 #256x256高分辨率 #零樣本圖像分類

Downloads 89

Release Time : 12/24/2024

Model Overview

該模型是CLIP框架中的視覺編碼器部分，採用ViT-B/32架構，經過大規模數據集訓練，能夠提取高質量的圖像特徵表示

Model Features

高分辨率支持

支持256x256像素的輸入分辨率，能處理更精細的圖像細節

CLIP架構

基於對比語言-圖像預訓練(CLIP)框架，具有強大的跨模態理解潛力

大規模預訓練

在DataComp數據集上預訓練，具有廣泛的視覺概念理解能力

Model Capabilities

圖像特徵提取

視覺內容理解

跨模態表示學習

Use Cases

計算機視覺

圖像檢索

提取圖像特徵用於相似圖像搜索

視覺分類

作為特徵提取器用於下游分類任務

多模態應用

圖文匹配

與文本編碼器配合實現圖文匹配任務

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit Base Patch32 Clip 256.datacompxl

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 vit_base_patch32_clip_256.datacompxl

🚀 快速開始

📄 許可證