C

CLIP ViT B 32 Laion2b E16

由justram開發
基於OpenCLIP實現的視覺-語言預訓練模型,支持零樣本圖像分類任務
下載量 89
發布時間 : 5/17/2023

模型概述

該模型是CLIP架構的一個實現,結合視覺Transformer(ViT)和文本編碼器,能夠理解圖像和文本的關聯性,適用於零樣本圖像分類等跨模態任務

模型特點

零樣本學習能力
無需特定任務的微調即可執行圖像分類任務
跨模態理解
能夠同時處理和理解視覺和文本信息
大規模預訓練
在laion2B數據集上進行預訓練,具有強大的泛化能力

模型能力

零樣本圖像分類
圖像-文本匹配
跨模態檢索

使用案例

內容審核
違規內容檢測
自動識別圖像中可能存在的違規內容
電子商務
產品分類
根據產品描述自動分類產品圖像
媒體分析
圖像標註
為圖像生成描述性標籤
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase