PE - 空间 - G14 - 448 オープンソース感知エンコーダ - 画像およびビデオ理解アプリケーションをサポート

PE Spatial G14 448

facebookによって開発

知覚エンコーダ（PE）は、シンプルな視覚言語学習トレーニングを通じて最先端の画像および動画理解エンコーダです。

オープンソースライセンス:Apache-2.0 #マルチタスク視覚理解 #中間層特徴抽出 #密集予測最適化

ダウンロード数 3,256

リリース時間 : 4/11/2025

モデル概要

知覚エンコーダ（PE）は、大規模な視覚エンコーダモデルのシリーズで、さまざまな視覚タスクにおいて最先端の性能を発揮します。堅牢な対比事前学習スキームを使用し、合成アラインメント動画で微調整を行うことで、PEは分類や検索タスクにおいて既存のすべてのモデルを凌駕するだけでなく、下流タスクに拡張可能な強力で汎用的な特徴を内部で生成できます。

モデル特徴

中間層特徴抽出

モデルの中間層から強力な特徴を取得し、出力層ではなく、より優れた視覚埋め込みを提供します

SAM最適化

SAM 2.1に基づくマスク学習戦略を採用して最適化し、密集予測タスクの性能を向上させます

詳細な意味的対応

特徴空間には詳細な意味的対応関係があり、物体の部分間の関連性を識別できます

モデル能力

画像特徴抽出

密集予測タスク処理

意味的対応分析

視覚理解

使用事例

コンピュータビジョン

画像分類

画像分類タスクに使用されます

さまざまな視覚タスクで最先端の性能を発揮します

物体検出

物体検出などの密集予測タスクに使用されます

ADE20k、LVIS、COCOデータセットで優れたパフォーマンスを示します

🚀 知覚エンコーダ (Perception Encoder)

画像特徴抽出のための最先端のエンコーダモデルで、画像や動画の理解に役立ちます。

🚀 クイックスタート

知覚エンコーダ (PE) は、単純なビジョン言語学習を通じて学習された、画像および動画理解のための最先端のエンコーダです。このモデルは、Perception Encoder: The best visual embeddings are not at the output of the network で紹介されました。

[📃 技術レポート] [📂 Github]

モデル開発者: Meta

モデル概要: 知覚エンコーダ (PE) は、幅広いビジョンタスクで最先端の性能を発揮する大規模ビジョンエンコーダモデルのファミリーです。強力な対照的事前学習手法を使用し、合成的にアライメントされた動画で微調整することで、PE は分類や検索タスクで既存のすべてのモデルを上回り、内部的にも下流タスクにスケーラブルな強力で汎用的な特徴を生成します。PE は、大規模な対照的事前学習が、アライメントチューニングによって下流タスクに転用され、それらの汎用的な特徴を活用する能力を開放します。

✨ 主な機能

知覚エンコーダ: 空間的 (Spatial)

PE spatial は、PE core の中間層から強力な空間的性能を引き出し、単純な凍結教師自己蒸留損失を使用して最終層にアライメントし、新しい SAM 2.1 マスクベースの学習戦略でさらに洗練されています。PE spatial は、検出などの密な予測タスクで良好な性能を発揮します。

PE core の中間層を教師として使用した短時間の微調整ステップ (グローバル損失を持つ純粋な CLIP モデル) と、SAM による少しの洗練を行ったにもかかわらず、得られる特徴空間は非常に詳細で適切にアライメントされています。ここでは、最後の層の特徴の PCA を LCh 色空間にマッピングしたものを示します (詳細は論文を参照)。

PE spatial は、CLIP 事前学習のおかげで、オブジェクト間の微妙なセマンティック対応関係も持っています。ここでは、マスクされていないトークンのみに対する PCA を再度示します。PE spatial は、最初の画像の猫の頭、背中、足などの部分間の対応関係を示します。さらに、PE spatial は、最後の 2 枚の画像のように、より微妙な対応関係を示すこともできます。ここでは、赤/青の方向が部分を示し、明度/暗度の方向がセマンティクス (つまり、犬/猫の品種) を示します。

これまでに、PE spatial の 1 つのチェックポイントをリリースしています。

エンコーダ	チェックポイント	ADE20k 線形プローブ 448px w/o TTA	LVIS Mask R-CNN 1024px ボックス / マスク mAP	COCO DETA 1728px ボックス mAP
G/14 448px	PE-Spatial-G14-448	49.3	54.2 / 49.3	65.5

完全な評価セットと他の研究との公正な比較については、論文を参照してください。

💻 使用例

基本的な使用法

モデルの読み込みコードは、https://github.com/facebookresearch/perception_models で提供されています。GitHub リポジトリで詳細を確認できます。

📄 ライセンス

このプロジェクトは、Apache-2.0 ライセンスの下で提供されています。

📚 引用

もしこのコードがあなたの研究に役立った場合、以下の文献を引用してください。

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル