P

PE Core L14 336

由facebook開發
Meta開發的大規模視覺編碼器模型,通過對比預訓練和合成視頻數據微調,在各類視覺任務中達到最先進性能
下載量 11.52k
發布時間 : 4/11/2025

模型概述

感知編碼器是一系列先進的圖像與視頻理解編碼器,採用魯棒的對比預訓練方案並在合成對齊視頻上微調,在分類和檢索任務上超越現有模型,其內部生成的特徵具有強大的通用性

模型特點

內部特徵通用性
模型內部生成的特徵具有強大通用性,可擴展至多種下游任務
對齊調優技術
通過對齊調優釋放大尺度對比預訓練的遷移潛力,充分利用通用特徵
多尺度性能
提供B/16、L/14、G/14三種規模,滿足不同計算需求

模型能力

零樣本圖像分類
零樣本視頻分類
圖像-文本檢索
視頻-文本檢索
跨模態特徵提取

使用案例

視覺內容理解
圖像分類
無需微調即可對圖像進行準確分類
在ImageNet-1k上達到85.4%準確率
跨模態檢索
實現圖像/視頻與文本之間的高效檢索
在COCO-T2I上達到58.1%召回率
視頻分析
視頻動作識別
識別視頻中的動作類別
在Kinetics-400上達到76.9%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase