P

PE Lang G14 448

Developed by facebook
感知編碼器是通過視覺語言訓練實現的最先進圖像視頻理解編碼器,具有強大的泛化能力。
Downloads 247
Release Time : 4/11/2025

Model Overview

感知編碼器(PE)是一系列在各類視覺任務中表現卓越的大規模視覺編碼模型,通過對比預訓練和合成對齊視頻微調,實現卓越的分類檢索和下游任務泛化能力。

Model Features

強大的泛化能力
PE內部生成的特徵具有強大的泛化能力,可擴展至多種下游任務。
語言對齊優化
PE語言版特別優化了通用性,適用於多模態語言建模的各種場景。
卓越的文檔處理能力
在OCR和文檔任務中表現尤為突出。

Model Capabilities

圖像理解
視頻理解
文檔問答
信息問答
文本問答
多模態語言建模

Use Cases

文檔處理
文檔問答
用於回答基於文檔內容的問題
在測試集上達到94.6的準確率
視覺問答
信息問答
回答基於圖像或視頻內容的問題
在測試集上達到78.8的準確率
多模態理解
感知測試
評估模型對視覺內容的理解能力
在測試集上達到82.7的準確率
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase