C

Convnext Large Mlp.clip Laion2b Ft Soup 320

由timm開發
基於CLIP架構的ConvNeXt-Large圖像編碼器,在LAION-2B數據集上微調,支持320x320分辨率圖像特徵提取
下載量 173
發布時間 : 12/24/2024

模型概述

該模型是CLIP框架中的圖像編碼器部分,採用ConvNeXt-Large架構,專門用於從圖像中提取高質量特徵表示。模型在LAION-2B數據集上進行了微調,適用於視覺-語言對齊任務。

模型特點

高分辨率支持
支持320x320分辨率的圖像輸入,能夠捕捉更精細的視覺特徵
大規模預訓練
在LAION-2B大規模數據集上進行預訓練和微調,具有強大的泛化能力
ConvNeXt架構
採用現代ConvNeXt-Large架構,結合了CNN和Transformer的優勢

模型能力

圖像特徵提取
視覺表示學習
跨模態對齊

使用案例

計算機視覺
圖像檢索
通過提取的圖像特徵進行相似圖像搜索
視覺問答
作為視覺理解模塊用於VQA系統
多模態應用
圖文匹配
評估圖像和文本描述之間的相關性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase