V

Vit Base Patch16 Clip 224.laion400m E32

由timm開發
基於LAION-400M數據集訓練的Vision Transformer模型,兼容open_clip和timm框架
下載量 5,751
發布時間 : 10/23/2024

模型概述

這是一個雙框架兼容的視覺Transformer模型,主要用於零樣本圖像分類任務。模型採用ViT-B-16架構,在LAION-400M大規模數據集上訓練。

模型特點

雙框架兼容
同時支持open_clip和timm框架,提供更靈活的使用方式
大規模訓練數據
使用LAION-400M數據集訓練,覆蓋廣泛的視覺概念
零樣本分類能力
無需特定任務微調即可執行圖像分類任務

模型能力

零樣本圖像分類
視覺特徵提取
圖像-文本對齊

使用案例

圖像理解
零樣本圖像分類
無需特定類別訓練即可對新類別圖像進行分類
圖像檢索
基於文本查詢檢索相關圖像
多模態應用
圖像標註
為圖像生成描述性文本標籤
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase