P

PE Spatial G14 448

Developed by facebook
知覚エンコーダ(PE)は、シンプルな視覚言語学習トレーニングを通じて最先端の画像および動画理解エンコーダです。
Downloads 3,256
Release Time : 4/11/2025

Model Overview

知覚エンコーダ(PE)は、大規模な視覚エンコーダモデルのシリーズで、さまざまな視覚タスクにおいて最先端の性能を発揮します。堅牢な対比事前学習スキームを使用し、合成アラインメント動画で微調整を行うことで、PEは分類や検索タスクにおいて既存のすべてのモデルを凌駕するだけでなく、下流タスクに拡張可能な強力で汎用的な特徴を内部で生成できます。

Model Features

中間層特徴抽出
モデルの中間層から強力な特徴を取得し、出力層ではなく、より優れた視覚埋め込みを提供します
SAM最適化
SAM 2.1に基づくマスク学習戦略を採用して最適化し、密集予測タスクの性能を向上させます
詳細な意味的対応
特徴空間には詳細な意味的対応関係があり、物体の部分間の関連性を識別できます

Model Capabilities

画像特徴抽出
密集予測タスク処理
意味的対応分析
視覚理解

Use Cases

コンピュータビジョン
画像分類
画像分類タスクに使用されます
さまざまな視覚タスクで最先端の性能を発揮します
物体検出
物体検出などの密集予測タスクに使用されます
ADE20k、LVIS、COCOデータセットで優れたパフォーマンスを示します
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase