P

PE Core G14 448

由facebook開發
感知編碼器(PE)是通過簡單視覺-語言學習訓練出的最先進的圖像與視頻理解編碼器,在多種視覺任務上均達到最先進性能。
下載量 22.83k
發布時間 : 4/11/2025

模型概述

感知編碼器(PE)是一系列大規模視覺編碼器模型,採用魯棒的對比預訓練方案並在合成對齊視頻上微調,不僅在分類和檢索任務上超越現有所有模型,其內部還能生成適用於下游任務的強通用特徵。

模型特點

強大的零樣本能力
在零樣本圖像分類/檢索以及零樣本視頻分類/檢索任務中均取得極強性能
內部特徵通用性強
模型內部能生成適用於多種下游任務的強通用特徵
困難基準表現突出
在ObjectNet和ImageNet-A等困難基準測試中表現尤為突出

模型能力

零樣本圖像分類
零樣本圖像檢索
零樣本視頻分類
零樣本視頻檢索
視覺特徵提取
文本特徵提取

使用案例

圖像理解
圖像分類
無需微調即可對新圖像進行分類
在ImageNet-1k上達到85.4%準確率
圖像檢索
根據文本查詢檢索相關圖像
在COCO文本到圖像檢索上達到58.1%準確率
視頻理解
視頻分類
無需微調即可對新視頻進行分類
在Kinetics-400上達到76.9%準確率
視頻檢索
根據文本查詢檢索相關視頻片段
在VTT文本到視頻檢索上達到51.2%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase