PE-Lang-L14-448開源感知編碼器 - 助力圖像與視頻理解，視覺任務表現出色

首頁

PE Lang L14 448

由facebook開發

感知編碼器（PE）是一種通過視覺-語言學習訓練而成的先進圖像與視頻理解編碼器，在多種視覺任務上具有最先進性能。

文本生成圖像開源協議:Apache-2.0 #多模態視覺理解 #中間層特徵提取 #文檔OCR優化

下載量 1,087

發布時間 : 4/11/2025

模型概述

感知編碼器（PE）是一系列大規模視覺編碼模型，通過魯棒的對比預訓練方案並在合成對齊視頻上微調，在分類和檢索任務上超越現有模型，並能生成適用於下游任務的強泛化特徵。

模型特點

強大的視覺理解能力

通過對比預訓練和視頻微調，在多種視覺任務上達到最先進性能。

泛化特徵生成

模型內部能生成適用於下游任務的強泛化特徵，超越傳統輸出層特徵。

語言對齊能力

PE語言版專門針對多模態語言建模場景優化，在OCR和文檔任務上表現突出。

模型能力

圖像特徵提取

視頻理解

多模態對齊

文檔理解

OCR任務處理

使用案例

文檔處理

文檔問答

處理Doc VQA等文檔問答任務

在Doc VQA測試集上達到94.6的準確率

信息提取

從文檔中提取關鍵信息

在InfoQA測試集上達到78.8的準確率

視覺問答

文本視覺問答

回答基於圖像中文本內容的問題

在TextVQA上達到86.5的準確率

視頻理解

視頻內容分析

理解視頻內容並回答問題

在MVBench上達到77.1的準確率

🚀 感知編碼器（Perception Encoder）

感知編碼器（Perception Encoder）是一種通過簡單的視覺 - 語言學習訓練的先進編碼器，用於圖像和視頻理解。它在圖像特徵提取等視覺任務中表現出色，為相關領域的研究和應用提供了強大的支持。

🚀 快速開始

感知編碼器（PE）是一個大規模視覺編碼器模型家族，在各種視覺任務中具有先進的性能。通過使用強大的對比預訓練方法並在合成對齊的視頻上進行微調，PE不僅在分類和檢索任務上優於所有現有模型，還能在內部生成強大的通用特徵，適用於下游任務。PE通過對齊調整將大規模對比預訓練的能力遷移到下游任務，以利用這些通用特徵。

✨ 主要特性

先進性能：在多種視覺任務中表現出色，超越現有模型。
通用特徵生成：內部生成強大的通用特徵，適用於下游任務。
語言對齊：PE lang從PE core的中間層獲取強大的語言性能，並根據PLM進一步對齊進行語言建模，適用於各種多模態語言建模用例。

📚 詳細文檔

模型詳情

技術報告：[📃 技術報告]
GitHub倉庫：[📂 GitHub]

模型開發者：Meta

感知編碼器：語言（PE lang）

PE lang從PE core的中間層獲取強大的語言性能，並根據PLM進一步對齊進行語言建模。我們特別調整了PE lang，使其適用於任何多模態語言建模用例，包括使用不同的語言模型解碼器（如Llama / Qwen）和不同的評估設置（如原生分辨率 / 平鋪）。PE lang在OCR和文檔任務中表現尤其出色。

我們發佈了兩個PE Lang檢查點，L14 - 448和G14 - 448。以下是它們在我們的基準設置下的結果，使用凍結的編碼器和260萬SFT數據混合，僅使用448px（即不使用平鋪），並使用Llama 3.1 8B作為解碼器：

編碼器	檢查點	文檔視覺問答（驗證集）	信息問答（驗證集）	文本視覺問答	MVBench	感知測試（驗證集）	自我圖式（驗證集）
L/14 448px	PE - Lang - L14 - 448	81.9	46.4	73.0	52.3	54.7	59.8
G/14 448px	PE - Lang - G14 - 448	84.4	48.3	75.2	52.4	56.0	62.0

以下是使用PE Core G與PLM - 8B進一步對齊（階段3）的性能示例，使用36 + 1圖像塊 / 32視頻幀，使用Llama 3.1 8B作為解碼器：

模型	編碼器	文檔視覺問答（測試集）	信息問答（測試集）	文本視覺問答	MVBench	感知測試（測試集）	自我圖式（測試集）
PLM - 8B	PE - Core - G14 - 448*	94.6	78.8	86.5	77.1	82.7	68.8

PE - Core - G14 - 448檢查點使用平鋪進行了進一步訓練。我們將盡快發佈平鋪對齊的檢查點。

完整的性能評估和與其他模型的公平比較請參閱論文。

💻 使用示例

模型加載代碼

我們在https://github.com/facebookresearch/perception_models 中提供了模型加載代碼。你可以在GitHub倉庫中找到更多詳細信息。

📄 許可證

本項目採用Apache - 2.0許可證。

📖 引用

如果你發現我們的代碼對你的研究有用，請考慮引用：

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}