P

PE Core B16 224

由facebook開發
感知編碼器是通過簡單視覺-語言學習訓練的最先進的圖像和視頻理解編碼器,在多種視覺任務上實現了最先進的性能。
下載量 9,663
發布時間 : 4/17/2025

模型概述

感知編碼器是一系列大規模視覺編碼器模型,通過魯棒的對比預訓練方案並在合成對齊的視頻上進行微調,不僅在分類和檢索任務上超越現有模型,還能生成強大、通用的特徵適用於下游任務。

模型特點

強大的零樣本能力
在零樣本圖像分類和檢索任務上全面表現出色,特別是在困難基準測試(如ObjectNet和ImageNet-A)上表現突出。
多任務適應性
通過內部生成的通用特徵,適用於多種下游視覺任務,包括圖像和視頻理解。
多規模模型
提供B/16、L/14、G/14三種規模,滿足不同計算資源和性能需求。
合成數據微調
在合成視頻數據引擎生成的數據上進行微調,增強了模型的泛化能力。

模型能力

零樣本圖像分類
零樣本圖像檢索
零樣本視頻分類
零樣本視頻檢索
視覺特徵提取
文本特徵提取
跨模態對齊

使用案例

圖像理解
圖像分類
無需特定訓練即可對圖像進行分類
在ImageNet-1k上達到85.4%準確率
圖像檢索
基於文本查詢檢索相關圖像
在COCO-T2I上達到58.1%準確率
視頻理解
視頻分類
無需特定訓練即可對視頻進行分類
在Kinetics-400上達到76.9%準確率
視頻檢索
基於文本查詢檢索相關視頻片段
在VTT-T2I上達到51.2%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase