V

Vit Huge Patch14 Clip Quickgelu 378.dfn5b

由timm開發
基於CLIP架構的ViT-Huge圖像編碼器,使用DFN5B數據集訓練,支持快速GELU激活
下載量 27
發布時間 : 12/26/2024

模型概述

該模型是CLIP框架中的視覺編碼器部分,採用Vision Transformer (ViT)架構,特別設計用於高效處理圖像特徵提取任務。

模型特點

大尺寸ViT架構
採用ViT-Huge架構,具有更強的特徵提取能力
快速GELU激活
使用QuickGELU激活函數,提高計算效率
CLIP兼容設計
作為CLIP框架的視覺編碼器部分,可與文本編碼器配合使用
大規模預訓練
基於DFN5B數據集訓練,具有強大的視覺表示能力

模型能力

圖像特徵提取
視覺表示學習
跨模態對齊

使用案例

計算機視覺
圖像分類
提取圖像特徵用於分類任務
圖像檢索
生成圖像嵌入用於相似性搜索
多模態應用
圖文匹配
與文本編碼器配合實現圖文跨模態匹配
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase