PE - Spatial - G14 - 448 開源感知編碼器 - 助力圖像和視頻理解應用

PE Spatial G14 448

由facebook開發

感知編碼器（PE）是通過簡單視覺語言學習訓練的最先進的圖像和視頻理解編碼器。

開源協議:Apache-2.0 #多任務視覺理解 #中間層特徵提取 #密集預測優化

下載量 3,256

發布時間 : 4/11/2025

模型概述

感知編碼器（PE）是一系列大規模視覺編碼器模型，在多種視覺任務上具有最先進的性能。通過使用魯棒的對比預訓練方案並在合成對齊視頻上進行微調，PE不僅在分類和檢索任務上超越了所有現有模型，還能在內部生成強大、通用的特徵，這些特徵可擴展用於下游任務。

模型特點

中間層特徵提取

從模型中間層獲取強大特徵，而非輸出層，提供更優的視覺嵌入

SAM優化

採用SAM 2.1基於掩碼的學習策略進行優化，提升密集預測任務性能

細緻的語義對應

特徵空間具有細緻的語義對應關係，能夠識別物體部分間的關聯

模型能力

圖像特徵提取

密集預測任務處理

語義對應分析

視覺理解

使用案例

計算機視覺

圖像分類

用於圖像分類任務

在多種視覺任務上具有最先進的性能

物體檢測

用於密集預測任務如物體檢測

在ADE20k、LVIS和COCO數據集上表現優異

🚀 感知編碼器 (Perception Encoder)

感知編碼器（Perception Encoder，PE）是一種通過簡單的視覺 - 語言學習訓練的先進編碼器，用於圖像和視頻理解。它在圖像和視頻理解領域表現出色，能為下游任務提供強大的通用特徵。

🚀 快速開始

感知編碼器（PE）是一系列大規模視覺編碼器模型，在各種視覺任務中具有先進的性能。通過使用強大的對比預訓練方法並在合成對齊的視頻上進行微調，PE不僅在分類和檢索任務上優於所有現有模型，還能在內部生成強大的通用特徵，適用於下游任務。

✨ 主要特性

模型概述

模型開發者：Meta
模型優勢：通過強大的對比預訓練和微調，在分類和檢索任務上超越現有模型，內部生成的通用特徵可用於下游任務。

感知編碼器：空間維度（PE Spatial）

性能提升：從PE核心的中間層獲取強大的空間性能，並通過簡單的凍結教師自蒸餾損失將其與末端對齊，再使用新穎的基於SAM 2.1掩碼的學習策略進行進一步優化。在密集預測任務（如檢測）中表現出色。
特徵空間：儘管使用PE核心的中間層作為教師進行了短時間的微調，並使用SAM進行了少量優化，但得到的特徵空間非常詳細且對齊良好。
語義對應：由於其CLIP預訓練，PE空間在對象之間具有細微的語義對應關係。

📚 詳細文檔

模型細節

模型架構圖

PE空間的評估結果

編碼器	檢查點	ADE20k 線性探針 448px 無TTA	LVIS Mask R - CNN 1024px 框 / 掩碼 mAP	COCO DETA 1728px 框 mAP
G/14 448px	PE - Spatial - G14 - 448	49.3	54.2 / 49.3	65.5

模型加載代碼

我們在 GitHub倉庫中提供了模型加載代碼，你可以在該倉庫中找到更多詳細信息。

📄 許可證

本項目採用Apache - 2.0許可證。

📚 引用

如果你發現我們的代碼對你的研究有用，請考慮引用以下文獻：

@article{bolya2025PerceptionEncoder,
  title={Perception Encoder: The best visual embeddings are not at the output of the network},
  author={Daniel Bolya and Po-Yao Huang and Peize Sun and Jang Hyun Cho and Andrea Madotto and Chen Wei and Tengyu Ma and Jiale Zhi and Jathushan Rajasegaran and Hanoona Rasheed and Junke Wang and Marco Monteiro and Hu Xu and Shiyu Dong and Nikhila Ravi and Daniel Li and Piotr Doll{\'a}r and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

@article{cho2025PerceptionLM,
  title={PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding},
  author={Jang Hyun Cho and Andrea Madotto and Effrosyni Mavroudi and Triantafyllos Afouras and Tushar Nagarajan and Muhammad Maaz and Yale Song and Tengyu Ma and Shuming Hu and Hanoona Rasheed and Peize Sun and Po-Yao Huang and Daniel Bolya and Suyog Jain and Miguel Martin and Huiyu Wang and Nikhila Ravi and Shashank Jain and Temmy Stark and Shane Moon and Babak Damavandi and Vivian Lee and Andrew Westbury and Salman Khan and Philipp Kr\"{a}henb\"{u}hl and Piotr Doll{\'a}r and Lorenzo Torresani and Kristen Grauman and Christoph Feichtenhofer},
  journal={arXiv},
  year={2025}
}

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型