V

Vit Base Patch16 Clip 224.datacompxl

由timm開發
基於CLIP架構的視覺Transformer模型,專門用於圖像特徵提取,採用ViT-B/16結構並在DataComp XL數據集上訓練
下載量 36
發布時間 : 12/24/2024

模型概述

該模型是CLIP(Contrastive Language-Image Pretraining)的圖像編碼器部分,能夠將輸入圖像轉換為有意義的特徵表示,適用於各種視覺任務。

模型特點

大規模預訓練
在DataComp XL數據集上訓練,該數據集包含大規模圖像-文本對
高效圖像編碼
採用ViT架構,能夠高效處理224x224分辨率輸入圖像
對比學習優化
通過CLIP的對比學習目標訓練,學習到的特徵具有更好的泛化能力

模型能力

圖像特徵提取
視覺表示學習
跨模態對齊(與文本特徵空間對齊)

使用案例

計算機視覺
圖像檢索
使用提取的圖像特徵進行相似圖像搜索
視覺分類
作為特徵提取器用於下游分類任務
多模態應用
圖文匹配
與文本編碼器配合實現圖文匹配任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase