🚀 感知编码器(Perception Encoder)
感知编码器(Perception Encoder)是一种通过简单的视觉 - 语言学习训练的先进编码器,用于图像和视频理解。它在多种视觉任务中表现出色,能够为下游任务提供强大的通用特征。
🚀 快速开始
感知编码器(PE)是一个大规模视觉编码器模型家族,在各种视觉任务中具有先进的性能。通过使用强大的对比预训练方法并在合成对齐的视频上进行微调,PE不仅在分类和检索任务上优于所有现有模型,还能在内部生成强大的通用特征,适用于下游任务。PE通过对齐调整,使大规模对比预训练能够迁移到下游任务,充分利用这些通用特征。
✨ 主要特性
感知编码器语言模型(Perception Encoder: Language)
PE lang 从 PE core 的中间层获取强大的语言性能,并根据 PLM 进一步进行语言建模对齐。我们特别调整了 PE lang,使其适用于任何多模态语言建模用例,包括使用不同的语言模型解码器(如 Llama / Qwen)和不同的评估设置(如原生分辨率 / 分块)。PE lang 在 OCR 和文档任务中表现尤其出色。
我们发布了两个 PE Lang 检查点,L14 - 448 和 G14 - 448。以下是在我们的基准设置下,使用冻结编码器和 260 万 SFT 数据混合,仅使用 448px(即不进行分块)并以 Llama 3.1 8B 作为解码器的结果:
编码器 |
检查点 |
文档视觉问答(验证集) |
信息问答(验证集) |
文本视觉问答 |
MVBench |
感知测试(验证集) |
自我图式(验证集) |
L/14 448px |
[PE - Lang - L14 - 448](https://huggingface.co/facebook/PE - Lang - L14 - 448) |
81.9 |
46.4 |
73.0 |
52.3 |
54.7 |
59.8 |
G/14 448px |
[PE - Lang - G14 - 448](https://huggingface.co/facebook/PE - Lang - G14 - 448) |
84.4 |
48.3 |
75.2 |
52.4 |
56.0 |
62.0 |
以下是使用 PE Core G 与 [PLM - 8B](https://huggingface.co/facebook/Perception - LM - 8B) 进一步对齐(阶段 3),使用 36 + 1 图像分块 / 32 视频帧,并以 Llama 3.1 8B 作为解码器可获得的性能示例:
模型 |
编码器 |
文档视觉问答(测试集) |
信息问答(测试集) |
文本视觉问答 |
MVBench |
感知测试(测试集) |
自我图式(测试集) |
PLM - 8B |
[PE - Core - G14 - 448](https://huggingface.co/facebook/PE - Core - G14 - 448)* |
94.6 |
78.8 |
86.5 |
77.1 |
82.7 |
68.8 |
* PE - Core - G14 - 448 检查点使用分块进行了进一步训练。我们将尽快发布分块对齐的检查点。
完整的性能评估和与其他模型的公平比较请参考论文。
📚 详细文档
模型加载代码
我们在 https://github.com/facebookresearch/perception_models 中提供了模型加载代码。你可以在 GitHub 仓库中找到更多详细信息。
📄 许可证
本项目采用 Apache - 2.0 许可证。
📖 引用
如果你发现我们的代码对您的研究有用,请考虑引用:
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po - Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open - Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po - Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
相关链接
模型信息
属性 |
详情 |
模型开发者 |
Meta |
模型类型 |
图像特征提取 |
模型库名称 |
perception - encoder |