P

PE Lang L14 448

facebookによって開発
知覚エンコーダ(PE)は、視覚と言語の学習を通じて訓練された先進的な画像・動画理解エンコーダで、様々な視覚タスクにおいて最先端の性能を発揮します。
ダウンロード数 1,087
リリース時間 : 4/11/2025

モデル概要

知覚エンコーダ(PE)は、大規模な視覚エンコーダモデルのシリーズで、ロバストな対比事前学習と合成アライメント動画での微調整により、分類・検索タスクで既存モデルを凌駕し、下流タスクに適した強力な汎化特徴を生成できます。

モデル特徴

強力な視覚理解能力
対比事前学習と動画微調整により、様々な視覚タスクで最先端性能を達成。
汎化特徴生成
モデル内部で下流タスクに適した強力な汎化特徴を生成し、従来の出力層特徴を超越。
言語アライメント能力
PE言語版はマルチモーダル言語モデリングシナリオに最適化され、OCRやドキュメントタスクで優れた性能を発揮。

モデル能力

画像特徴抽出
動画理解
マルチモーダルアライメント
ドキュメント理解
OCRタスク処理

使用事例

ドキュメント処理
ドキュメントQA
Doc VQAなどのドキュメント質問応答タスクを処理
Doc VQAテストセットで94.6%の精度を達成
情報抽出
ドキュメントからキー情報を抽出
InfoQAテストセットで78.8%の精度を達成
視覚質問応答
テキスト視覚QA
画像内テキスト内容に基づく質問に回答
TextVQAで86.5%の精度を達成
動画理解
動画内容分析
動画内容を理解し質問に回答
MVBenchで77.1%の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase