C

Clip Vit Base Patch32

由Xenova開發
OpenAI開發的CLIP模型,基於Vision Transformer架構,支持圖像與文本的聯合理解
下載量 177.13k
發布時間 : 5/19/2023

模型概述

基於Vision Transformer的CLIP模型,能夠將圖像和文本映射到同一語義空間,實現跨模態理解與零樣本分類

模型特點

零樣本學習能力
無需特定類別訓練即可對新類別進行圖像分類
跨模態理解
將圖像和文本映射到共享的語義空間,實現圖文互檢索
Web優化
提供ONNX格式權重,專為Web端部署優化

模型能力

零樣本圖像分類
圖文相似度計算
跨模態檢索
圖像語義理解

使用案例

內容管理
智能相冊分類
根據自然語言描述自動分類相冊中的圖片
示例中老虎圖片分類準確率達99.9%
電子商務
商品圖像搜索
通過文字描述查找匹配的商品圖片
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase