V

Vit Base Patch16 Clip 224.openai

由timm開發
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習訓練圖像和文本編碼器,支持零樣本圖像分類。
下載量 618.17k
發布時間 : 11/1/2022

模型概述

CLIP模型探索計算機視覺任務的魯棒性因素,並測試模型以零樣本方式泛化到任意圖像分類任務的能力。

模型特點

零樣本泛化能力
無需特定任務微調即可執行多種圖像分類任務
多模態對比學習
通過對比損失聯合訓練圖像和文本編碼器
變換器架構
採用ViT-B/16視覺變換器和文本變換器編碼器

模型能力

零樣本圖像分類
圖像-文本相似度計算
跨模態特徵提取

使用案例

學術研究
計算機視覺魯棒性研究
探索模型在不同分佈數據上的表現
論文中展示了跨數據集泛化能力
多模態學習研究
研究視覺與語言表徵的聯合學習
證明了對比學習的有效性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase