V

Vit Base Patch16 Clip 224.laion2b

由timm開發
基於CLIP架構的視覺Transformer模型,僅包含圖像編碼器部分,適用於圖像特徵提取任務
下載量 4,460
發布時間 : 12/24/2024

模型概述

該模型是CLIP框架中的視覺編碼器部分,採用ViT-B/16架構,在laion2B數據集上訓練,可用於提取高質量的圖像特徵表示

模型特點

大規模預訓練
在laion2B超大規模數據集上訓練,包含34億樣本
高效圖像編碼
基於Vision Transformer架構,能高效處理224x224分辨率圖像
多模態兼容性
雖然僅包含圖像編碼器,但特徵空間與CLIP文本編碼器對齊

模型能力

圖像特徵提取
圖像相似度計算
視覺內容理解

使用案例

計算機視覺
圖像檢索
通過提取的圖像特徵進行相似圖像搜索
視覺內容分析
提取圖像的高級語義特徵用於分類或標註
多模態應用
圖文匹配
與CLIP文本編碼器配合實現跨模態檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase