R

Resnet50x64 Clip Gap.openai

由timm開發
基於ResNet50架構的CLIP模型圖像編碼器,具有64倍寬度擴展,使用全局平均池化(GAP)策略
下載量 107
發布時間 : 12/26/2024

模型概述

該模型是CLIP框架中的圖像編碼器部分,採用擴展版的ResNet50架構,用於提取圖像特徵並與文本特徵進行對齊。

模型特點

擴展架構
採用64倍寬度的ResNet50變體,具有更強的特徵提取能力
全局平均池化
使用GAP(Global Average Pooling)策略替代傳統池化方式
CLIP兼容
專為CLIP多模態學習框架設計的圖像編碼器

模型能力

圖像特徵提取
視覺表示學習
多模態對齊

使用案例

多模態學習
圖文匹配
將圖像特徵與文本特徵進行對齊匹配
零樣本分類
利用CLIP框架實現無需微調的圖像分類
計算機視覺
圖像檢索
基於提取的圖像特徵進行相似圖像搜索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase