V

Vit Huge Patch14 Clip 378.dfn5b

由timm開發
DFN5B-CLIP的視覺編碼器部分,基於ViT-Huge架構,使用378x378分辨率圖像訓練的CLIP模型
下載量 461
發布時間 : 12/26/2024

模型概述

該模型是CLIP(Contrastive Language-Image Pretraining)的視覺編碼器部分,專門用於從圖像中提取高級特徵表示。基於Vision Transformer (ViT)架構,適用於各種計算機視覺任務。

模型特點

高分辨率處理
支持378x378像素的高分辨率圖像輸入,能夠捕捉更精細的視覺特徵
CLIP兼容性
作為CLIP模型的視覺編碼器部分,可與文本編碼器配合實現跨模態理解
ViT-Huge架構
基於Vision Transformer的大規模架構,具有強大的特徵提取能力

模型能力

圖像特徵提取
視覺表示學習
跨模態對齊

使用案例

計算機視覺
圖像分類
利用提取的圖像特徵進行分類任務
圖像檢索
基於視覺相似性的圖像搜索
多模態應用
圖文匹配
與文本編碼器結合實現圖文相關性判斷
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase