V

Vit Medium Patch16 Clip 224.tinyclip Yfcc15m

由timm開發
基於ViT架構的CLIP模型,用於零樣本圖像分類任務
下載量 144
發布時間 : 3/20/2024

模型概述

該模型是OpenCLIP項目的一部分,採用Vision Transformer (ViT)架構,專門用於零樣本圖像分類任務。它結合了視覺和語言表示,能夠在不進行特定任務訓練的情況下對圖像進行分類。

模型特點

零樣本學習能力
無需特定任務的訓練數據即可執行圖像分類任務
多模態理解
同時處理視覺和文本信息,實現跨模態理解
高效架構
基於ViT架構,平衡了模型性能和計算效率

模型能力

零樣本圖像分類
圖像-文本匹配
跨模態檢索

使用案例

內容管理
自動圖像標註
為圖像庫中的圖片自動生成描述性標籤
提高圖像檢索效率,減少人工標註成本
電子商務
產品分類
根據產品圖片自動分類到相應類別
提高商品上架效率,改善用戶體驗
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase