P

PE Spatial G14 448

由facebook開發
感知編碼器(PE)是通過簡單視覺語言學習訓練的最先進的圖像和視頻理解編碼器。
下載量 3,256
發布時間 : 4/11/2025

模型概述

感知編碼器(PE)是一系列大規模視覺編碼器模型,在多種視覺任務上具有最先進的性能。通過使用魯棒的對比預訓練方案並在合成對齊視頻上進行微調,PE不僅在分類和檢索任務上超越了所有現有模型,還能在內部生成強大、通用的特徵,這些特徵可擴展用於下游任務。

模型特點

中間層特徵提取
從模型中間層獲取強大特徵,而非輸出層,提供更優的視覺嵌入
SAM優化
採用SAM 2.1基於掩碼的學習策略進行優化,提升密集預測任務性能
細緻的語義對應
特徵空間具有細緻的語義對應關係,能夠識別物體部分間的關聯

模型能力

圖像特徵提取
密集預測任務處理
語義對應分析
視覺理解

使用案例

計算機視覺
圖像分類
用於圖像分類任務
在多種視覺任務上具有最先進的性能
物體檢測
用於密集預測任務如物體檢測
在ADE20k、LVIS和COCO數據集上表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase