V

Vit Huge Patch14 Clip 224.metaclip Altogether

由timm開發
基於ViT-Huge架構的CLIP模型,支持零樣本圖像分類任務
下載量 171
發布時間 : 12/23/2024

模型概述

該模型是OpenCLIP和timm的雙用途視覺語言模型,基於ViT-Huge架構,使用MetaCLIP數據集訓練,支持零樣本圖像分類任務。

模型特點

雙框架兼容
同時支持OpenCLIP和timm框架使用
零樣本能力
無需特定訓練即可執行圖像分類任務
大規模預訓練
使用MetaCLIP數據集訓練,具有廣泛視覺概念理解能力

模型能力

零樣本圖像分類
圖像-文本匹配
跨模態理解

使用案例

內容理解
圖像自動標註
為未標註圖像生成描述性標籤
可識別數千種常見物體和場景
視覺搜索
基於文本的圖像檢索
使用自然語言查詢查找相關圖像
無需訓練即可實現跨模態檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase