R

Resnet50 Clip Gap.cc12m

由timm開發
基於ResNet50架構的CLIP風格圖像編碼器,使用CC12M數據集訓練,通過全局平均池化(GAP)提取特徵
下載量 19
發布時間 : 12/26/2024

模型概述

該模型是timm庫中的圖像特徵提取模型,採用ResNet50架構並結合CLIP訓練方法,專為圖像表示學習優化

模型特點

CLIP風格訓練
採用類似CLIP的對比學習方法訓練,增強圖像表示能力
全局平均池化
使用GAP(Global Average Pooling)替代傳統全連接層,更適合特徵提取任務
大規模預訓練
在CC12M(約1200萬圖像-文本對)數據集上進行預訓練

模型能力

圖像特徵提取
視覺表示學習
圖像嵌入生成

使用案例

計算機視覺
圖像檢索
提取圖像特徵用於相似圖像搜索
多模態學習
作為視覺編碼器用於圖文匹配等任務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase