C

CLIP ViT H 14 Laion2b S32b B79k

由laion開發
基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索任務
下載量 1.8M
發布時間 : 9/14/2022

模型概述

這是一個使用ViT-H/14架構的CLIP模型,專門在LAION-5B的20億英文子集上訓練。模型能夠理解圖像和文本之間的關聯,實現零樣本圖像分類和跨模態檢索。

模型特點

大規模預訓練
在LAION-2B大規模多模態數據集上訓練,具有強大的泛化能力
零樣本能力
無需微調即可執行新類別的圖像分類任務
跨模態理解
能夠同時處理視覺和文本信息,實現圖像與文本的關聯

模型能力

零樣本圖像分類
圖像文本檢索
跨模態特徵提取
圖像分類微調

使用案例

內容檢索
圖像搜索引擎
使用自然語言查詢檢索相關圖像
智能分類
動態圖像分類
無需預先訓練即可對新類別進行分類
在ImageNet-1k上達到78.0%的零樣本top-1準確率
輔助創作
圖像生成引導
為生成模型提供文本條件化指導
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase