V

Vit Huge Patch14 Clip 224.dfn5b

由timm開發
基於CLIP架構的ViT-Huge圖像編碼器,由蘋果公司發佈的DFN5B-CLIP模型,適用於視覺特徵提取任務。
下載量 128
發布時間 : 12/26/2024

模型概述

該模型是CLIP架構的視覺變換器(ViT)實現,專門用於圖像特徵提取。採用huge規模的patch14結構,輸入分辨率為224x224像素。

模型特點

大規模視覺變換器
採用ViT-Huge架構,具有強大的圖像特徵提取能力
CLIP兼容設計
基於CLIP框架開發,可與文本編碼器配合使用
高分辨率處理
支持224x224像素的輸入分辨率

模型能力

圖像特徵提取
視覺表示學習

使用案例

計算機視覺
圖像分類
提取圖像特徵用於分類任務
視覺搜索
為圖像檢索系統生成特徵向量
多模態應用
圖文匹配
與文本編碼器配合實現跨模態檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase