🚀 パーセプションエンコーダ (Perception Encoder)
パーセプションエンコーダ(PE)は、シンプルなビジョン言語学習を通じて学習された、画像およびビデオ理解のための最先端のエンコーダです。画像特徴抽出に高い性能を発揮します。
🚀 クイックスタート
パーセプションエンコーダ(PE)は、様々なビジョンタスクで最先端の性能を発揮する大規模ビジョンエンコーダモデルのファミリーです。頑健な対照的事前学習方法と合成的にアラインメントされたビデオでの微調整を使用することで、PEは分類と検索において既存のすべてのモデルを上回り、内部的に下流タスクにスケールする強力で汎用的な特徴を生成します。
✨ 主な機能
モデル概要
パーセプションエンコーダ: 言語 (PE lang)
PE langは、PE coreの中間層からの強力な言語性能を活用し、PLMに従って言語モデリングのためにさらにアラインメントを行います。PE langは、異なる言語モデルデコーダ(例: Llama / Qwen)や異なる評価設定(例: ネイティブ解像度 / タイリング)を含む、あらゆるマルチモーダル言語モデリングのユースケースに汎用的に対応するように調整されています。特に、OCRやドキュメントタスクで良好な性能を発揮します。
ベンチマーク結果
PE Langチェックポイント (L14-448とG14-448)
エンコーダ |
チェックポイント |
Doc VQA (val) |
InfoQA (val) |
TextVQA |
MVBench |
PerceptionTest (val) |
EgoSchema (val) |
L/14 448px |
PE-Lang-L14-448 |
81.9 |
46.4 |
73.0 |
52.3 |
54.7 |
59.8 |
G/14 448px |
PE-Lang-G14-448 |
84.4 |
48.3 |
75.2 |
52.4 |
56.0 |
62.0 |
PE Core GとPLM-8Bをさらにアラインメントした結果
モデル |
エンコーダ |
Doc VQA (test) |
InfoQA (test) |
TextVQA |
MVBench |
PerceptionTest (test) |
EgoSchema (test) |
PLM-8B |
PE-Core-G14-448* |
94.6 |
78.8 |
86.5 |
77.1 |
82.7 |
68.8 |
* The PE-Core-G14-448 checkpoint was further trained using tiling. We will release the tiling aligned checkpoint soon.
📚 ドキュメント
モデルの読み込み
モデルの読み込みコードは、https://github.com/facebookresearch/perception_models で提供されています。詳細はGitHubリポジトリを参照してください。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で公開されています。
📖 引用
もしあなたの研究にこのコードが役立った場合、以下の論文を引用してください。
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}