V

Vit L 14 336

由asakhare開發
基於Vision Transformer架構的大規模視覺語言模型,支持零樣本圖像分類任務
下載量 20
發布時間 : 1/4/2024

模型概述

該模型是OpenCLIP項目的一部分,採用ViT-L/14架構,輸入分辨率為336x336,專注於跨模態視覺語言理解,特別適用於零樣本圖像分類場景。

模型特點

零樣本學習能力
無需特定任務微調即可對新類別進行圖像分類
高分辨率處理
支持336x336像素的輸入分辨率,能捕捉更精細的視覺特徵
跨模態理解
同時理解視覺和文本信息,實現圖文匹配

模型能力

零樣本圖像分類
圖文匹配
視覺特徵提取

使用案例

內容管理
自動圖像標註
為未標註圖像自動生成描述性標籤
提高內容檢索效率
電子商務
產品分類
根據產品圖片自動分類到商品目錄
減少人工分類工作量
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase