S

Sapiens Pretrain 2b

facebookによって開発
Sapiens-2Bは3億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスク向けに設計されており、優れた汎化能力を備えています。
ダウンロード数 28
リリース時間 : 9/10/2024

モデル概要

Sapiens-2Bは21.63億パラメータの視覚Transformerモデルで、1024×1024解像度の人間画像で事前学習されています。このモデルは人間中心の視覚タスク向けに最適化されており、アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を示します。

モデル特徴

高解像度サポート
1024×1024ピクセルの高解像度画像処理をネイティブサポート
大規模事前学習
3億枚の人間画像に基づく事前学習により、強力な特徴抽出能力を備えています
優れた汎化能力
アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を示します
効率的なアーキテクチャ
視覚Transformerアーキテクチャを採用、48層ネットワーク構造、32個のアテンションヘッド

モデル能力

人間画像特徴抽出
高解像度画像処理
視覚表現学習
転移学習

使用事例

コンピュータビジョン
人体姿勢推定
高解像度画像から人体姿勢特徴を抽出するために使用
顔認識
顔認識システムの基礎特徴抽出器として使用可能
拡張現実
バーチャルアバター生成
高精細な人間のバーチャルアバター生成に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase