P

Prolip ViT B 16 DC 1B 12 8B

由SanghyukChun開發
基於DataComp 1B數據集預訓練的概率語言-圖像預訓練(ProLIP)ViT-B/16模型
下載量 460
發布時間 : 10/18/2024

模型概述

這是一個採用概率語言-圖像預訓練方法(ProLIP)的視覺語言模型,能夠處理圖像分類和跨模態檢索任務,特別擅長零樣本學習場景。

模型特點

概率建模
採用概率方法建模圖像和文本特徵分佈,能夠量化預測不確定性
大規模預訓練
在DataComp 1B數據集上預訓練,實際使用12.8億訓練樣本
零樣本學習能力
無需微調即可在新任務上表現出色,支持零樣本圖像分類和檢索
不確定性感知
能夠輸出圖像和文本特徵的不確定性估計,提高預測可靠性

模型能力

零樣本圖像分類
跨模態檢索
不確定性估計
多模態特徵提取

使用案例

圖像理解
零樣本圖像分類
無需特定訓練即可對新圖像進行分類
ImageNet-1k上達到74.6% top-1準確率
跨模態檢索
圖文檢索
根據文本查詢檢索相關圖像,或根據圖像檢索相關文本
零樣本檢索性能59.6%
魯棒性評估
分佈偏移評估
在ImageNet分佈偏移數據上評估模型魯棒性
達到63.0%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase