P

PE Lang G14 448

facebookによって開発
知覚エンコーダは視覚言語トレーニングによって実現された最先端の画像・動画理解エンコーダで、強力な汎化能力を備えています。
ダウンロード数 247
リリース時間 : 4/11/2025

モデル概要

知覚エンコーダ(PE)は様々な視覚タスクで卓越した性能を発揮する大規模視覚エンコーダモデルシリーズで、対比事前学習と合成アライメント動画ファインチューニングにより、優れた分類検索と下流タスクへの汎化能力を実現しています。

モデル特徴

強力な汎化能力
PE内部で生成される特徴は強力な汎化能力を持ち、様々な下流タスクに拡張可能です。
言語アライメント最適化
PE言語版は特に汎用性を最適化しており、マルチモーダル言語モデリングの様々なシナリオに適用可能です。
卓越したドキュメント処理能力
OCRやドキュメントタスクで特に優れた性能を発揮します。

モデル能力

画像理解
動画理解
ドキュメントQA
情報QA
テキストQA
マルチモーダル言語モデリング

使用事例

ドキュメント処理
ドキュメントQA
ドキュメント内容に基づく質問に回答
テストセットで94.6の精度を達成
視覚QA
情報QA
画像や動画内容に基づく質問に回答
テストセットで78.8の精度を達成
マルチモーダル理解
知覚テスト
モデルの視覚内容理解能力を評価
テストセットで82.7の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase