P

PE Spatial G14 448

facebookによって開発
知覚エンコーダ(PE)は、シンプルな視覚言語学習トレーニングを通じて最先端の画像および動画理解エンコーダです。
ダウンロード数 3,256
リリース時間 : 4/11/2025

モデル概要

知覚エンコーダ(PE)は、大規模な視覚エンコーダモデルのシリーズで、さまざまな視覚タスクにおいて最先端の性能を発揮します。堅牢な対比事前学習スキームを使用し、合成アラインメント動画で微調整を行うことで、PEは分類や検索タスクにおいて既存のすべてのモデルを凌駕するだけでなく、下流タスクに拡張可能な強力で汎用的な特徴を内部で生成できます。

モデル特徴

中間層特徴抽出
モデルの中間層から強力な特徴を取得し、出力層ではなく、より優れた視覚埋め込みを提供します
SAM最適化
SAM 2.1に基づくマスク学習戦略を採用して最適化し、密集予測タスクの性能を向上させます
詳細な意味的対応
特徴空間には詳細な意味的対応関係があり、物体の部分間の関連性を識別できます

モデル能力

画像特徴抽出
密集予測タスク処理
意味的対応分析
視覚理解

使用事例

コンピュータビジョン
画像分類
画像分類タスクに使用されます
さまざまな視覚タスクで最先端の性能を発揮します
物体検出
物体検出などの密集予測タスクに使用されます
ADE20k、LVIS、COCOデータセットで優れたパフォーマンスを示します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase