C

CLIP ViT H 14 Laion2b S32b B79k

由ModelsLab開發
這是一個基於OpenCLIP框架、在LAION-2B英語子集上訓練的視覺語言模型,擅長零樣本圖像分類和跨模態檢索任務。
下載量 132
發布時間 : 1/16/2025

模型概述

該模型採用CLIP架構,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類、圖像文本檢索等任務。

模型特點

大規模訓練數據
使用LAION-5B的20億英語樣本子集訓練,涵蓋廣泛的視覺概念
零樣本能力
無需微調即可執行新類別的圖像分類任務
跨模態理解
同時理解圖像和文本,支持圖像-文本匹配和檢索

模型能力

零樣本圖像分類
圖像文本檢索
跨模態嵌入學習
圖像內容理解

使用案例

計算機視覺
零樣本圖像分類
無需訓練數據即可對圖像進行分類
在ImageNet-1k上達到78.0%的零樣本top-1準確率
圖像檢索
根據文本查詢檢索相關圖像
在COCO和Flickr數據集上表現良好
研究應用
多模態研究
用於研究視覺語言表示學習
模型微調基礎
作為下游任務的預訓練模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase