C

Convnext Base.clip Laion2b

由timm開發
基於ConvNeXt架構的CLIP圖像編碼器,由LAION組織訓練,適用於多模態視覺-語言任務
下載量 297
發布時間 : 12/24/2024

模型概述

該模型是CLIP框架中的圖像編碼器部分,採用ConvNeXt_base架構,在LAION-2B數據集上訓練,能夠將圖像編碼為與文本對齊的嵌入向量

模型特點

ConvNeXt架構
採用現代卷積神經網絡架構ConvNeXt,結合了CNN和Transformer的優勢
大規模預訓練
在LAION-2B大規模數據集上訓練,具有強大的視覺表示能力
CLIP兼容
與CLIP框架兼容,可與其他CLIP文本編碼器配合使用

模型能力

圖像特徵提取
視覺-語言對齊
多模態嵌入生成

使用案例

計算機視覺
圖像檢索
通過文本查詢檢索相關圖像
零樣本分類
無需特定訓練即可對新類別進行分類
多模態應用
圖文匹配
判斷圖像與文本描述的匹配程度
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase