C

Convnext Xxlarge.clip Laion2b Soup

由timm開發
基於CLIP框架的ConvNeXt-XXLarge圖像編碼器,由LAION訓練,適用於多模態任務
下載量 220
發布時間 : 12/24/2024

模型概述

該模型是CLIP框架中的圖像編碼器部分,採用ConvNeXt-XXLarge架構,在LAION-2B數據集上訓練,可用於圖像特徵提取和跨模態表示學習

模型特點

大規模預訓練
在LAION-2B大規模數據集上訓練,具有強大的圖像理解能力
ConvNeXt架構
採用現代ConvNeXt架構的XXLarge版本,結合了CNN和Transformer的優勢
CLIP兼容
作為CLIP框架的圖像編碼器部分,可與文本編碼器配合實現跨模態學習

模型能力

圖像特徵提取
視覺表示學習
跨模態對齊

使用案例

多模態應用
圖像檢索
基於文本查詢檢索相關圖像
圖像分類
利用提取的特徵進行零樣本或少樣本圖像分類
計算機視覺
視覺特徵提取
為下游任務提供高質量的圖像表示
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase