PE-Lang-G14-448开源感知编码器 - 助力图像视频理解，泛化能力超强大

首页

PE Lang G14 448

由 facebook 开发

感知编码器是通过视觉语言训练实现的最先进图像视频理解编码器，具有强大的泛化能力。

文本生成图像开源协议:Apache-2.0 #多模态视觉理解 #语言对齐优化 #文档OCR增强

下载量 247

发布时间 : 4/11/2025

模型简介

感知编码器（PE）是一系列在各类视觉任务中表现卓越的大规模视觉编码模型，通过对比预训练和合成对齐视频微调，实现卓越的分类检索和下游任务泛化能力。

模型特点

强大的泛化能力

PE内部生成的特征具有强大的泛化能力，可扩展至多种下游任务。

语言对齐优化

PE语言版特别优化了通用性，适用于多模态语言建模的各种场景。

卓越的文档处理能力

在OCR和文档任务中表现尤为突出。

模型能力

图像理解

视频理解

文档问答

信息问答

文本问答

多模态语言建模

使用案例

文档处理

文档问答

用于回答基于文档内容的问题

在测试集上达到94.6的准确率

视觉问答

信息问答

回答基于图像或视频内容的问题

在测试集上达到78.8的准确率

多模态理解

感知测试

评估模型对视觉内容的理解能力

在测试集上达到82.7的准确率

🚀 感知编码器（Perception Encoder）

感知编码器（Perception Encoder）是一种通过简单的视觉 - 语言学习训练的先进编码器，用于图像和视频理解。它在多种视觉任务中表现出色，能够为下游任务提供强大的通用特征。

🚀 快速开始

感知编码器（PE）是一个大规模视觉编码器模型家族，在各种视觉任务中具有先进的性能。通过使用强大的对比预训练方法并在合成对齐的视频上进行微调，PE不仅在分类和检索任务上优于所有现有模型，还能在内部生成强大的通用特征，适用于下游任务。PE通过对齐调整，使大规模对比预训练能够迁移到下游任务，充分利用这些通用特征。

✨ 主要特性

感知编码器语言模型（Perception Encoder: Language）

PE lang 从 PE core 的中间层获取强大的语言性能，并根据 PLM 进一步进行语言建模对齐。我们特别调整了 PE lang，使其适用于任何多模态语言建模用例，包括使用不同的语言模型解码器（如 Llama / Qwen）和不同的评估设置（如原生分辨率 / 分块）。PE lang 在 OCR 和文档任务中表现尤其出色。

我们发布了两个 PE Lang 检查点，L14 - 448 和 G14 - 448。以下是在我们的基准设置下，使用冻结编码器和 260 万 SFT 数据混合，仅使用 448px（即不进行分块）并以 Llama 3.1 8B 作为解码器的结果：

编码器	检查点	文档视觉问答（验证集）	信息问答（验证集）	文本视觉问答	MVBench	感知测试（验证集）	自我图式（验证集）
L/14 448px	[PE - Lang - L14 - 448](https://huggingface.co/facebook/PE - Lang - L14 - 448)	81.9	46.4	73.0	52.3	54.7	59.8
G/14 448px	[PE - Lang - G14 - 448](https://huggingface.co/facebook/PE - Lang - G14 - 448)	84.4	48.3	75.2	52.4	56.0	62.0

以下是使用 PE Core G 与 [PLM - 8B](https://huggingface.co/facebook/Perception - LM - 8B) 进一步对齐（阶段 3），使用 36 + 1 图像分块 / 32 视频帧，并以 Llama 3.1 8B 作为解码器可获得的性能示例：

模型	编码器	文档视觉问答（测试集）	信息问答（测试集）	文本视觉问答	MVBench	感知测试（测试集）	自我图式（测试集）
PLM - 8B	[PE - Core - G14 - 448](https://huggingface.co/facebook/PE - Core - G14 - 448)*	94.6	78.8	86.5	77.1	82.7	68.8

* PE - Core - G14 - 448 检查点使用分块进行了进一步训练。我们将尽快发布分块对齐的检查点。

完整的性能评估和与其他模型的公平比较请参考论文。

📚 详细文档

模型加载代码

我们在 https://github.com/facebookresearch/perception_models 中提供了模型加载代码。你可以在 GitHub 仓库中找到更多详细信息。

📄 许可证

本项目采用 Apache - 2.0 许可证。

📖 引用

如果你发现我们的代码对您的研究有用，请考虑引用：

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po - Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open - Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po - Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}