C

CLIP ViT L 14 Laion2b S32b B82k

由laion開發
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺語言模型,支持零樣本圖像分類和圖文檢索
下載量 79.01k
發布時間 : 9/14/2022

模型概述

該模型使用ViT-L/14架構,在LAION-5B數據集的20億英語樣本子集上訓練,具備強大的跨模態理解能力,可將圖像和文本映射到共享的嵌入空間

模型特點

大規模訓練數據
使用LAION-5B數據集的20億英語樣本進行訓練,涵蓋廣泛視覺概念
零樣本學習能力
無需微調即可執行新類別的圖像分類任務
跨模態理解
可將圖像和文本映射到共享的語義空間,支持圖文互檢索
高精度
在ImageNet-1k上實現75.3的零樣本top-1準確率

模型能力

零樣本圖像分類
圖像文本檢索
文本圖像檢索
跨模態特徵提取

使用案例

內容檢索
圖像搜索引擎
使用自然語言查詢檢索相關圖像
智能分類
動態圖像分類
無需重新訓練即可對新類別進行分類
在ImageNet-1k上達到75.3%準確率
輔助創作
圖像生成引導
為生成模型提供文本條件化指導
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase