PE-Lang-L14-448オープンソース知覚エンコーダ - 画像とビデオの理解を支援し、ビジュアルタスクで優れた性能を発揮

ホーム

PE Lang L14 448

facebookによって開発

知覚エンコーダ（PE）は、視覚と言語の学習を通じて訓練された先進的な画像・動画理解エンコーダで、様々な視覚タスクにおいて最先端の性能を発揮します。

テキスト生成画像オープンソースライセンス:Apache-2.0 #マルチモーダル視覚理解 #中間層特徴抽出 #ドキュメントOCR最適化

ダウンロード数 1,087

リリース時間 : 4/11/2025

モデル概要

知覚エンコーダ（PE）は、大規模な視覚エンコーダモデルのシリーズで、ロバストな対比事前学習と合成アライメント動画での微調整により、分類・検索タスクで既存モデルを凌駕し、下流タスクに適した強力な汎化特徴を生成できます。

モデル特徴

強力な視覚理解能力

対比事前学習と動画微調整により、様々な視覚タスクで最先端性能を達成。

汎化特徴生成

モデル内部で下流タスクに適した強力な汎化特徴を生成し、従来の出力層特徴を超越。

言語アライメント能力

PE言語版はマルチモーダル言語モデリングシナリオに最適化され、OCRやドキュメントタスクで優れた性能を発揮。

モデル能力

画像特徴抽出

動画理解

マルチモーダルアライメント

ドキュメント理解

OCRタスク処理

使用事例

ドキュメント処理

ドキュメントQA

Doc VQAなどのドキュメント質問応答タスクを処理

Doc VQAテストセットで94.6%の精度を達成

情報抽出

ドキュメントからキー情報を抽出

InfoQAテストセットで78.8%の精度を達成

視覚質問応答

テキスト視覚QA

画像内テキスト内容に基づく質問に回答

TextVQAで86.5%の精度を達成

動画理解

動画内容分析

動画内容を理解し質問に回答

MVBenchで77.1%の精度を達成

🚀 パーセプションエンコーダ (Perception Encoder)

パーセプションエンコーダ（PE）は、シンプルなビジョン言語学習を通じて学習された、画像およびビデオ理解のための最先端のエンコーダです。画像特徴抽出に高い性能を発揮します。

🚀 クイックスタート

パーセプションエンコーダ（PE）は、様々なビジョンタスクで最先端の性能を発揮する大規模ビジョンエンコーダモデルのファミリーです。頑健な対照的事前学習方法と合成的にアラインメントされたビデオでの微調整を使用することで、PEは分類と検索において既存のすべてのモデルを上回り、内部的に下流タスクにスケールする強力で汎用的な特徴を生成します。

✨ 主な機能

モデル概要

モデル開発者: Meta
論文リンク: [📃 Tech Report]、[📂 Github]
参考論文: "Perception Encoder: The best visual embeddings are not at the output of the network"

パーセプションエンコーダ: 言語 (PE lang)

PE langは、PE coreの中間層からの強力な言語性能を活用し、PLMに従って言語モデリングのためにさらにアラインメントを行います。PE langは、異なる言語モデルデコーダ（例: Llama / Qwen）や異なる評価設定（例: ネイティブ解像度 / タイリング）を含む、あらゆるマルチモーダル言語モデリングのユースケースに汎用的に対応するように調整されています。特に、OCRやドキュメントタスクで良好な性能を発揮します。

ベンチマーク結果

PE Langチェックポイント (L14-448とG14-448)

エンコーダ	チェックポイント	Doc VQA (val)	InfoQA (val)	TextVQA	MVBench	PerceptionTest (val)	EgoSchema (val)
L/14 448px	PE-Lang-L14-448	81.9	46.4	73.0	52.3	54.7	59.8
G/14 448px	PE-Lang-G14-448	84.4	48.3	75.2	52.4	56.0	62.0

PE Core GとPLM-8Bをさらにアラインメントした結果

モデル	エンコーダ	Doc VQA (test)	InfoQA (test)	TextVQA	MVBench	PerceptionTest (test)	EgoSchema (test)
PLM-8B	PE-Core-G14-448*	94.6	78.8	86.5	77.1	82.7	68.8

* The PE-Core-G14-448 checkpoint was further trained using tiling. We will release the tiling aligned checkpoint soon.

📚 ドキュメント

モデルの読み込み

モデルの読み込みコードは、https://github.com/facebookresearch/perception_models で提供されています。詳細はGitHubリポジトリを参照してください。

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

📖 引用

もしあなたの研究にこのコードが役立った場合、以下の論文を引用してください。

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}