vit_base_patch16_clip_224.dfn2b開源圖像模型 - 助你實現高質量圖像編碼應用

Home

Vit Base Patch16 Clip 224.dfn2b

Developed by timm

基於CLIP架構的視覺Transformer模型，由蘋果公司發佈的DFN2B-CLIP圖像編碼器權重

圖像分類

Transformers

Open Source License:Other #CLIP視覺編碼 #零樣本圖像分類 #多模態預訓練

Downloads 444

Release Time : 12/26/2024

Model Overview

該模型是基於CLIP架構的視覺Transformer（ViT）模型，專門用於圖像特徵提取。它採用了patch16的輸入處理方式，輸入分辨率為224x224像素。

Model Features

CLIP架構

採用對比語言-圖像預訓練(CLIP)架構，具有強大的圖像表示能力

ViT-B/16基礎

基於Vision Transformer基礎架構，使用16x16的patch大小

高效特徵提取

專為圖像特徵提取優化，適合作為視覺任務的骨幹網絡

Model Capabilities

圖像特徵提取

視覺表示學習

Use Cases

計算機視覺

圖像分類

可作為圖像分類任務的特徵提取器

圖像檢索

用於提取圖像特徵以支持相似圖像檢索

多模態學習

視覺-語言任務

可作為視覺-語言模型的視覺編碼器組件

屬性	詳情
模型類型	圖像特徵提取模型
庫名稱	timm
許可證	apple-sample-code-license
許可證鏈接	https://huggingface.co/apple/DFN2B-CLIP-ViT-B-16/resolve/main/LICENSE

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers Supports Multiple Languages

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統 Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Vit Base Patch16 Clip 224.dfn2b

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 vit_base_patch16_clip_224.dfn2b 模型卡

📄 許可證