C

CLIP ViT Bigg 14 Laion2b 39B B160k

由laion開發
基於OpenCLIP框架在LAION-2B數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
下載量 565.80k
發布時間 : 1/23/2023

模型概述

這是一個基於ViT-bigG/14架構的CLIP模型,使用OpenCLIP框架在LAION-5B的20億英語子集上訓練。模型能夠理解圖像和文本之間的語義關係,支持零樣本圖像分類和跨模態檢索任務。

模型特點

零樣本學習能力
無需特定任務微調即可執行新類別的圖像分類任務
跨模態理解
能夠同時理解圖像和文本的語義關係
大規模訓練
在20億規模的LAION-2B英語數據集上訓練
高性能
在ImageNet-1k上達到80.1%的零樣本top-1準確率

模型能力

零樣本圖像分類
圖像文本檢索
跨模態語義理解
圖像特徵提取

使用案例

圖像理解
零樣本圖像分類
無需訓練即可對新類別圖像進行分類
在ImageNet-1k上達到80.1%準確率
圖像檢索
根據文本描述檢索相關圖像
研究應用
多模態研究
用於視覺-語言聯合表示學習的研究
模型微調基礎
作為下游任務的預訓練模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase