C

Clip Vit Base Patch16

由Xenova開發
OpenAI開源的CLIP模型,基於Vision Transformer架構,支持圖像與文本的跨模態理解
下載量 32.99k
發布時間 : 5/19/2023

模型概述

基於Vision Transformer架構的多模態模型,能夠同時理解圖像和文本內容,實現零樣本圖像分類、跨模態檢索等任務

模型特點

零樣本學習能力
無需特定任務訓練即可直接執行圖像分類任務
跨模態理解
可同時處理視覺和文本信息,計算圖像-文本相似度
高效視覺編碼
採用16x16分塊的Vision Transformer架構處理圖像輸入

模型能力

零樣本圖像分類
圖像文本匹配
跨模態嵌入計算
視覺內容理解
文本內容理解

使用案例

內容檢索
圖文匹配搜索
根據文本描述搜索相關圖像
智能分類
動態圖像分類
無需預訓練即可對圖像進行自定義類別分類
示例中老虎圖像分類準確率達99.9%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase