V

Vit Large Patch14 Clip 224.dfn2b

由timm開發
基於CLIP架構的視覺變換器模型,專注於圖像特徵提取,由蘋果公司發佈。
下載量 178
發布時間 : 12/26/2024

模型概述

該模型是CLIP(對比語言-圖像預訓練)的圖像編碼器部分,採用Vision Transformer (ViT)架構,適用於圖像特徵提取任務。

模型特點

基於CLIP架構
採用對比學習框架,能夠學習圖像和文本的聯合表示。
Vision Transformer
使用ViT架構處理圖像,將圖像分割為patch序列進行處理。
大規模預訓練
在大型數據集上預訓練,具有強大的特徵提取能力。

模型能力

圖像特徵提取
圖像表示學習

使用案例

計算機視覺
圖像檢索
使用提取的圖像特徵進行相似圖像檢索。
視覺問答
作為視覺問答系統的圖像編碼器。
多模態學習
圖文匹配
用於圖像和文本的跨模態匹配任務。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase