🚀 知覚エンコーダ (Perception Encoder)
画像特徴抽出のための最先端のエンコーダモデルで、画像や動画の理解に役立ちます。
🚀 クイックスタート
知覚エンコーダ (PE) は、単純なビジョン言語学習を通じて学習された、画像および動画理解のための最先端のエンコーダです。このモデルは、Perception Encoder: The best visual embeddings are not at the output of the network で紹介されました。
[📃 技術レポート]
[📂 Github]
モデル開発者: Meta
モデル概要: 知覚エンコーダ (PE) は、幅広いビジョンタスクで最先端の性能を発揮する大規模ビジョンエンコーダモデルのファミリーです。強力な対照的事前学習手法を使用し、合成的にアライメントされた動画で微調整することで、PE は分類や検索タスクで既存のすべてのモデルを上回り、内部的にも下流タスクにスケーラブルな強力で汎用的な特徴を生成します。PE は、大規模な対照的事前学習が、アライメントチューニングによって下流タスクに転用され、それらの汎用的な特徴を活用する能力を開放します。
✨ 主な機能
知覚エンコーダ: 空間的 (Spatial)
PE spatial は、PE core の中間層から強力な空間的性能を引き出し、単純な凍結教師自己蒸留損失を使用して最終層にアライメントし、新しい SAM 2.1 マスクベースの学習戦略でさらに洗練されています。PE spatial は、検出などの密な予測タスクで良好な性能を発揮します。
PE core の中間層を教師として使用した短時間の微調整ステップ (グローバル損失を持つ純粋な CLIP モデル) と、SAM による少しの洗練を行ったにもかかわらず、得られる特徴空間は非常に詳細で適切にアライメントされています。ここでは、最後の層の特徴の PCA を LCh 色空間にマッピングしたものを示します (詳細は論文を参照)。
PE spatial は、CLIP 事前学習のおかげで、オブジェクト間の微妙なセマンティック対応関係も持っています。ここでは、マスクされていないトークンのみに対する PCA を再度示します。PE spatial は、最初の画像の猫の頭、背中、足などの部分間の対応関係を示します。さらに、PE spatial は、最後の 2 枚の画像のように、より微妙な対応関係を示すこともできます。ここでは、赤/青の方向が部分を示し、明度/暗度の方向がセマンティクス (つまり、犬/猫の品種) を示します。
これまでに、PE spatial の 1 つのチェックポイントをリリースしています。
エンコーダ |
チェックポイント |
ADE20k 線形プローブ 448px w/o TTA |
LVIS Mask R-CNN 1024px ボックス / マスク mAP |
COCO DETA 1728px ボックス mAP |
G/14 448px |
PE-Spatial-G14-448 |
49.3 |
54.2 / 49.3 |
65.5 |
完全な評価セットと他の研究との公正な比較については、論文を参照してください。
💻 使用例
基本的な使用法
モデルの読み込みコードは、https://github.com/facebookresearch/perception_models で提供されています。GitHub リポジトリで詳細を確認できます。
📄 ライセンス
このプロジェクトは、Apache-2.0 ライセンスの下で提供されています。
📚 引用
もしこのコードがあなたの研究に役立った場合、以下の文献を引用してください。
@article{bolya2025PerceptionEncoder,
title={Perception Encoder: The best visual embeddings are not at the output of the network},
author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}
@article{cho2025PerceptionLM,
title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
journal={arXiv},
year={2025}
}