🚀 感知编码器 (Perception Encoder)
感知编码器(Perception Encoder,PE)是一种通过简单的视觉 - 语言学习训练的先进编码器,用于图像和视频理解。它在图像和视频理解领域表现出色,能为下游任务提供强大的通用特征。
🚀 快速开始
感知编码器(PE)是一系列大规模视觉编码器模型,在各种视觉任务中具有先进的性能。通过使用强大的对比预训练方法并在合成对齐的视频上进行微调,PE不仅在分类和检索任务上优于所有现有模型,还能在内部生成强大的通用特征,适用于下游任务。
✨ 主要特性
模型概述
- 模型开发者:Meta
- 模型优势:通过强大的对比预训练和微调,在分类和检索任务上超越现有模型,内部生成的通用特征可用于下游任务。
感知编码器:空间维度(PE Spatial)
- 性能提升:从PE核心的中间层获取强大的空间性能,并通过简单的冻结教师自蒸馏损失将其与末端对齐,再使用新颖的基于SAM 2.1掩码的学习策略进行进一步优化。在密集预测任务(如检测)中表现出色。
- 特征空间:尽管使用PE核心的中间层作为教师进行了短时间的微调,并使用SAM进行了少量优化,但得到的特征空间非常详细且对齐良好。
- 语义对应:由于其CLIP预训练,PE空间在对象之间具有细微的语义对应关系。
📚 详细文档
模型细节
模型架构图

PE空间的评估结果
编码器 |
检查点 |
ADE20k 线性探针 448px 无TTA |
LVIS Mask R - CNN 1024px 框 / 掩码 mAP |
COCO DETA 1728px 框 mAP |
G/14 448px |
PE - Spatial - G14 - 448 |
49.3 |
54.2 / 49.3 |
65.5 |
模型加载代码
我们在 GitHub仓库 中提供了模型加载代码,你可以在该仓库中找到更多详细信息。
📄 许可证
本项目采用Apache - 2.0许可证。
📚 引用
如果你发现我们的代码对你的研究有用,请考虑引用以下文献:
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}