P

PE Lang L14 448

由facebook開發
感知編碼器(PE)是一種通過視覺-語言學習訓練而成的先進圖像與視頻理解編碼器,在多種視覺任務上具有最先進性能。
下載量 1,087
發布時間 : 4/11/2025

模型概述

感知編碼器(PE)是一系列大規模視覺編碼模型,通過魯棒的對比預訓練方案並在合成對齊視頻上微調,在分類和檢索任務上超越現有模型,並能生成適用於下游任務的強泛化特徵。

模型特點

強大的視覺理解能力
通過對比預訓練和視頻微調,在多種視覺任務上達到最先進性能。
泛化特徵生成
模型內部能生成適用於下游任務的強泛化特徵,超越傳統輸出層特徵。
語言對齊能力
PE語言版專門針對多模態語言建模場景優化,在OCR和文檔任務上表現突出。

模型能力

圖像特徵提取
視頻理解
多模態對齊
文檔理解
OCR任務處理

使用案例

文檔處理
文檔問答
處理Doc VQA等文檔問答任務
在Doc VQA測試集上達到94.6的準確率
信息提取
從文檔中提取關鍵信息
在InfoQA測試集上達到78.8的準確率
視覺問答
文本視覺問答
回答基於圖像中文本內容的問題
在TextVQA上達到86.5的準確率
視頻理解
視頻內容分析
理解視頻內容並回答問題
在MVBench上達到77.1的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase