C

CLIP Convnext Large D 320.laion2B S29b B131k Ft Soup

由laion開發
基於ConvNeXt-Large架構的CLIP模型,在LAION-2B數據集上訓練,支持零樣本圖像分類和圖像文本檢索任務
下載量 83.56k
發布時間 : 2/11/2023

模型概述

這是一個基於ConvNeXt-Large架構的CLIP模型,採用OpenCLIP框架在LAION-2B數據集上訓練而成。模型支持零樣本圖像分類和圖像文本檢索等任務,具有較高的圖像理解能力。

模型特點

高分辨率處理能力
支持320x320分辨率輸入,相比標準256x256模型有更好的細節處理能力
權重平均優化
採用多次微調權重平均(soup)技術,提升了模型性能
高效架構設計
ConvNeXt-Large-D架構在320x320分辨率下比類似模型更高效

模型能力

零樣本圖像分類
圖像文本檢索
跨模態理解
圖像特徵提取

使用案例

圖像分類
零樣本圖像分類
無需特定訓練即可對圖像進行分類
在ImageNet-1k上達到76.9%的零樣本Top-1準確率
信息檢索
圖像文本檢索
根據文本查詢檢索相關圖像或根據圖像檢索相關文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase