C

CLIP ViT B 16 Laion2b S34b B88k

由laion開發
基於OpenCLIP框架訓練的多模態視覺語言模型,在LAION-2B英語數據集上訓練完成,支持零樣本圖像分類任務
下載量 251.02k
發布時間 : 1/3/2023

模型概述

該CLIP模型採用ViT-B/16架構,通過對比學習實現圖像與文本的聯合表示,可用於零樣本圖像分類、圖文檢索等跨模態任務

模型特點

大規模訓練數據
使用LAION-5B的20億英語樣本子集訓練,涵蓋廣泛視覺概念
零樣本學習能力
無需微調即可直接應用於新類別識別任務
跨模態對齊
通過對比學習實現圖像與文本特徵的統一表示空間

模型能力

零樣本圖像分類
圖文相似度計算
跨模態檢索
圖像特徵提取

使用案例

計算機視覺
開放域圖像分類
使用自然語言描述直接分類圖像,無需預定義類別體系
ImageNet-1k上達到70.2%零樣本top-1準確率
信息檢索
圖文交叉檢索
實現文本到圖像或圖像到文本的雙向檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase