🚀 感知編碼器 (Perception Encoder)
感知編碼器(Perception Encoder,PE)是一種通過簡單的視覺 - 語言學習訓練的先進編碼器,用於圖像和視頻理解。它在圖像和視頻理解領域表現出色,能為下游任務提供強大的通用特徵。
🚀 快速開始
感知編碼器(PE)是一系列大規模視覺編碼器模型,在各種視覺任務中具有先進的性能。通過使用強大的對比預訓練方法並在合成對齊的視頻上進行微調,PE不僅在分類和檢索任務上優於所有現有模型,還能在內部生成強大的通用特徵,適用於下游任務。
✨ 主要特性
模型概述
- 模型開發者:Meta
- 模型優勢:通過強大的對比預訓練和微調,在分類和檢索任務上超越現有模型,內部生成的通用特徵可用於下游任務。
感知編碼器:空間維度(PE Spatial)
- 性能提升:從PE核心的中間層獲取強大的空間性能,並通過簡單的凍結教師自蒸餾損失將其與末端對齊,再使用新穎的基於SAM 2.1掩碼的學習策略進行進一步優化。在密集預測任務(如檢測)中表現出色。
- 特徵空間:儘管使用PE核心的中間層作為教師進行了短時間的微調,並使用SAM進行了少量優化,但得到的特徵空間非常詳細且對齊良好。
- 語義對應:由於其CLIP預訓練,PE空間在對象之間具有細微的語義對應關係。
📚 詳細文檔
模型細節
模型架構圖

PE空間的評估結果
編碼器 |
檢查點 |
ADE20k 線性探針 448px 無TTA |
LVIS Mask R - CNN 1024px 框 / 掩碼 mAP |
COCO DETA 1728px 框 mAP |
G/14 448px |
PE - Spatial - G14 - 448 |
49.3 |
54.2 / 49.3 |
65.5 |
模型加載代碼
我們在 GitHub倉庫 中提供了模型加載代碼,你可以在該倉庫中找到更多詳細信息。
📄 許可證
本項目採用Apache - 2.0許可證。
📚 引用
如果你發現我們的代碼對你的研究有用,請考慮引用以下文獻:
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}