PE-Lang-G14-448オープンソース知覚エンコーダー - 画像とビデオの理解を支援し、汎化能力が非常に強力

ホーム

PE Lang G14 448

facebookによって開発

知覚エンコーダは視覚言語トレーニングによって実現された最先端の画像・動画理解エンコーダで、強力な汎化能力を備えています。

テキスト生成画像オープンソースライセンス:Apache-2.0 #マルチモーダル視覚理解 #言語アライメント最適化 #ドキュメントOCR強化

ダウンロード数 247

リリース時間 : 4/11/2025

モデル概要

知覚エンコーダ（PE）は様々な視覚タスクで卓越した性能を発揮する大規模視覚エンコーダモデルシリーズで、対比事前学習と合成アライメント動画ファインチューニングにより、優れた分類検索と下流タスクへの汎化能力を実現しています。

モデル特徴

強力な汎化能力

PE内部で生成される特徴は強力な汎化能力を持ち、様々な下流タスクに拡張可能です。

言語アライメント最適化

PE言語版は特に汎用性を最適化しており、マルチモーダル言語モデリングの様々なシナリオに適用可能です。

卓越したドキュメント処理能力

OCRやドキュメントタスクで特に優れた性能を発揮します。

モデル能力

画像理解

動画理解

ドキュメントQA

情報QA

テキストQA

マルチモーダル言語モデリング

使用事例

ドキュメント処理

ドキュメントQA

ドキュメント内容に基づく質問に回答

テストセットで94.6の精度を達成

視覚QA

情報QA

画像や動画内容に基づく質問に回答

テストセットで78.8の精度を達成

マルチモーダル理解

知覚テスト

モデルの視覚内容理解能力を評価

テストセットで82.7の精度を達成

🚀 知覚エンコーダ (Perception Encoder)

知覚エンコーダ（PE）は、シンプルなビジョン言語学習を通じて学習された、画像およびビデオ理解のための最先端のエンコーダです。

🚀 クイックスタート

知覚エンコーダ（PE）は、様々なビジョンタスクで最先端の性能を発揮する大規模ビジョンエンコーダモデルのファミリーです。強力な対照的事前学習レシピを使用し、合成的にアラインされたビデオで微調整することで、PEは分類と検索において既存のすべてのモデルを上回り、内部的に下流タスクに拡張可能な強力で汎用的な特徴を生成します。

✨ 主な機能

知覚エンコーダの概要

知覚エンコーダ（PE）は、シンプルなビジョン言語学習を通じて学習された、画像およびビデオ理解のための最先端のエンコーダです。このモデルは、「Perception Encoder: The best visual embeddings are not at the output of the network」で紹介されました。

知覚エンコーダ: 言語モデル (PE lang)

PE langは、PE coreの中間層からの強力な言語性能を取り入れ、PLMに従って言語モデリングのためにさらにアラインメントを行います。PE langは、異なる言語モデルデコーダ（例: Llama / Qwen）や異なる評価設定（例: ネイティブ解像度 / タイリング）を含む、あらゆるマルチモーダル言語モデリングのユースケースに対応するように調整されています。特に、OCRやドキュメントタスクで良好な性能を発揮します。

我々は、2つのPE Langチェックポイント、L14 - 448とG14 - 448をリリースしています。以下は、エンコーダを固定した260万のSFTデータミックスを使用し、448pxのみ（つまり、タイリングなし）でLlama 3.1 8Bをデコーダとして使用したベンチマーク設定での結果です。

エンコーダ	チェックポイント	Doc VQA (val)	InfoQA (val)	TextVQA	MVBench	PerceptionTest (val)	EgoSchema (val)
L/14 448px	PE-Lang-L14-448	81.9	46.4	73.0	52.3	54.7	59.8
G/14 448px	PE-Lang-G14-448	84.4	48.3	75.2	52.4	56.0	62.0

また、PLM - 8BとさらにアラインメントされたPE Core Gを使用した場合（ステージ3）、36 + 1の画像タイル / 32のビデオフレームを使用し、Llama 3.1 8Bをデコーダとして使用した場合の性能サンプルを示します。

モデル	エンコーダ	Doc VQA (test)	InfoQA (test)	TextVQA	MVBench	PerceptionTest (test)	EgoSchema (test)
PLM - 8B	PE-Core-G14-448*	94.6	78.8	86.5	77.1	82.7	68.8

PE - Core - G14 - 448のチェックポイントは、タイリングを使用してさらに学習されました。タイリングアラインメントされたチェックポイントは近日中にリリース予定です。

完全な性能評価と他のモデルとの公正な比較については、論文を参照してください。

📚 ドキュメント

モデルの読み込みコード

モデルの読み込みコードは、こちらで提供しています。詳細については、GitHubリポジトリを参照してください。

📄 ライセンス

このプロジェクトは、Apache - 2.0ライセンスの下で公開されています。

📚 引用

もしあなたの研究に我々のコードが役立つ場合、以下の文献を引用していただけると幸いです。

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}