🚀 感知編碼器(Perception Encoder)
感知編碼器(Perception Encoder)是一種通過簡單的視覺 - 語言學習訓練的先進編碼器,用於圖像和視頻理解。它在圖像特徵提取等視覺任務中表現出色,為相關領域的研究和應用提供了強大的支持。
🚀 快速開始
感知編碼器(PE)是一個大規模視覺編碼器模型家族,在各種視覺任務中具有先進的性能。通過使用強大的對比預訓練方法並在合成對齊的視頻上進行微調,PE不僅在分類和檢索任務上優於所有現有模型,還能在內部生成強大的通用特徵,適用於下游任務。PE通過對齊調整將大規模對比預訓練的能力遷移到下游任務,以利用這些通用特徵。
✨ 主要特性
- 先進性能:在多種視覺任務中表現出色,超越現有模型。
- 通用特徵生成:內部生成強大的通用特徵,適用於下游任務。
- 語言對齊:PE lang從PE core的中間層獲取強大的語言性能,並根據PLM進一步對齊進行語言建模,適用於各種多模態語言建模用例。
📚 詳細文檔
模型詳情
模型開發者:Meta

感知編碼器:語言(PE lang)
PE lang從PE core的中間層獲取強大的語言性能,並根據PLM進一步對齊進行語言建模。我們特別調整了PE lang,使其適用於任何多模態語言建模用例,包括使用不同的語言模型解碼器(如Llama / Qwen)和不同的評估設置(如原生分辨率 / 平鋪)。PE lang在OCR和文檔任務中表現尤其出色。
我們發佈了兩個PE Lang檢查點,L14 - 448和G14 - 448。以下是它們在我們的基準設置下的結果,使用凍結的編碼器和260萬SFT數據混合,僅使用448px(即不使用平鋪),並使用Llama 3.1 8B作為解碼器:
以下是使用PE Core G與PLM - 8B進一步對齊(階段3)的性能示例,使用36 + 1圖像塊 / 32視頻幀,使用Llama 3.1 8B作為解碼器:
模型 |
編碼器 |
文檔視覺問答(測試集) |
信息問答(測試集) |
文本視覺問答 |
MVBench |
感知測試(測試集) |
自我圖式(測試集) |
PLM - 8B |
PE - Core - G14 - 448* |
94.6 |
78.8 |
86.5 |
77.1 |
82.7 |
68.8 |
- PE - Core - G14 - 448檢查點使用平鋪進行了進一步訓練。我們將盡快發佈平鋪對齊的檢查點。
完整的性能評估和與其他模型的公平比較請參閱論文。
💻 使用示例
模型加載代碼
我們在https://github.com/facebookresearch/perception_models 中提供了模型加載代碼。你可以在GitHub倉庫中找到更多詳細信息。
📄 許可證
本項目採用Apache - 2.0許可證。
📖 引用
如果你發現我們的代碼對你的研究有用,請考慮引用:
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}