🚀 知覚エンコーダ (Perception Encoder)
知覚エンコーダ(PE)は、シンプルなビジョン言語学習を通じて学習された、画像およびビデオ理解のための最先端のエンコーダです。
🚀 クイックスタート
知覚エンコーダ(PE)は、様々なビジョンタスクで最先端の性能を発揮する大規模ビジョンエンコーダモデルのファミリーです。強力な対照的事前学習レシピを使用し、合成的にアラインされたビデオで微調整することで、PEは分類と検索において既存のすべてのモデルを上回り、内部的に下流タスクに拡張可能な強力で汎用的な特徴を生成します。
✨ 主な機能
知覚エンコーダの概要
知覚エンコーダ(PE)は、シンプルなビジョン言語学習を通じて学習された、画像およびビデオ理解のための最先端のエンコーダです。このモデルは、「Perception Encoder: The best visual embeddings are not at the output of the network」で紹介されました。
知覚エンコーダ: 言語モデル (PE lang)
PE langは、PE coreの中間層からの強力な言語性能を取り入れ、PLMに従って言語モデリングのためにさらにアラインメントを行います。PE langは、異なる言語モデルデコーダ(例: Llama / Qwen)や異なる評価設定(例: ネイティブ解像度 / タイリング)を含む、あらゆるマルチモーダル言語モデリングのユースケースに対応するように調整されています。特に、OCRやドキュメントタスクで良好な性能を発揮します。
我々は、2つのPE Langチェックポイント、L14 - 448とG14 - 448をリリースしています。以下は、エンコーダを固定した260万のSFTデータミックスを使用し、448pxのみ(つまり、タイリングなし)でLlama 3.1 8Bをデコーダとして使用したベンチマーク設定での結果です。
エンコーダ |
チェックポイント |
Doc VQA (val) |
InfoQA (val) |
TextVQA |
MVBench |
PerceptionTest (val) |
EgoSchema (val) |
L/14 448px |
PE-Lang-L14-448 |
81.9 |
46.4 |
73.0 |
52.3 |
54.7 |
59.8 |
G/14 448px |
PE-Lang-G14-448 |
84.4 |
48.3 |
75.2 |
52.4 |
56.0 |
62.0 |
また、PLM - 8BとさらにアラインメントされたPE Core Gを使用した場合(ステージ3)、36 + 1の画像タイル / 32のビデオフレームを使用し、Llama 3.1 8Bをデコーダとして使用した場合の性能サンプルを示します。
モデル |
エンコーダ |
Doc VQA (test) |
InfoQA (test) |
TextVQA |
MVBench |
PerceptionTest (test) |
EgoSchema (test) |
PLM - 8B |
PE-Core-G14-448* |
94.6 |
78.8 |
86.5 |
77.1 |
82.7 |
68.8 |
- PE - Core - G14 - 448のチェックポイントは、タイリングを使用してさらに学習されました。タイリングアラインメントされたチェックポイントは近日中にリリース予定です。
完全な性能評価と他のモデルとの公正な比較については、論文を参照してください。
📚 ドキュメント
モデルの読み込みコード
モデルの読み込みコードは、こちらで提供しています。詳細については、GitHubリポジトリを参照してください。
📄 ライセンス
このプロジェクトは、Apache - 2.0ライセンスの下で公開されています。
📚 引用
もしあなたの研究に我々のコードが役立つ場合、以下の文献を引用していただけると幸いです。
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}