P

PE Lang G14 448

由facebook開發
感知編碼器是通過視覺語言訓練實現的最先進圖像視頻理解編碼器,具有強大的泛化能力。
下載量 247
發布時間 : 4/11/2025

模型概述

感知編碼器(PE)是一系列在各類視覺任務中表現卓越的大規模視覺編碼模型,通過對比預訓練和合成對齊視頻微調,實現卓越的分類檢索和下游任務泛化能力。

模型特點

強大的泛化能力
PE內部生成的特徵具有強大的泛化能力,可擴展至多種下游任務。
語言對齊優化
PE語言版特別優化了通用性,適用於多模態語言建模的各種場景。
卓越的文檔處理能力
在OCR和文檔任務中表現尤為突出。

模型能力

圖像理解
視頻理解
文檔問答
信息問答
文本問答
多模態語言建模

使用案例

文檔處理
文檔問答
用於回答基於文檔內容的問題
在測試集上達到94.6的準確率
視覺問答
信息問答
回答基於圖像或視頻內容的問題
在測試集上達到78.8的準確率
多模態理解
感知測試
評估模型對視覺內容的理解能力
在測試集上達到82.7的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase