C

Clip Vit Base Patch16

由openai開發
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
下載量 4.6M
發布時間 : 3/2/2022

模型概述

CLIP模型通過聯合訓練圖像和文本編碼器,能夠在無需特定任務微調的情況下,完成多種圖像分類任務。其核心創新是將自然語言作為監督信號,實現靈活的零樣本遷移。

模型特點

零樣本遷移能力
無需特定任務微調即可應用於新的圖像分類任務,僅需提供文本標籤描述
多模態對齊
通過對比學習將圖像和文本映射到共享的語義空間,實現跨模態理解
魯棒性表現
在多種分佈偏移測試集上展現出優於傳統監督模型的魯棒性

模型能力

零樣本圖像分類
圖像-文本相似度計算
跨模態檢索
多模態特徵提取

使用案例

學術研究
計算機視覺魯棒性研究
用於研究模型在不同分佈偏移情況下的表現
在ImageNet變體測試集上展示出更強的魯棒性
多模態表示學習
作為基礎模型研究視覺-語言聯合表示
受限應用場景
受限圖像搜索
在固定分類體系下的圖像檢索應用
需完成領域特定測試後方可部署
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase