Sapiens-2Bオープンソースビジュアルモデル - 膨大な人間の画像に基づき、人を中心としたビジュアルタスクをサポート

Sapiens Pretrain 2b

facebookによって開発

Sapiens-2Bは3億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスク向けに設計されており、優れた汎化能力を備えています。

人の顔に関係がある英語#高解像度ポートレート特徴抽出 #21億パラメータ視覚Transformer #合成データ汎化

ダウンロード数 28

リリース時間 : 9/10/2024

モデル概要

Sapiens-2Bは21.63億パラメータの視覚Transformerモデルで、1024×1024解像度の人間画像で事前学習されています。このモデルは人間中心の視覚タスク向けに最適化されており、アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を示します。

モデル特徴

高解像度サポート

1024×1024ピクセルの高解像度画像処理をネイティブサポート

大規模事前学習

3億枚の人間画像に基づく事前学習により、強力な特徴抽出能力を備えています

優れた汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を示します

効率的なアーキテクチャ

視覚Transformerアーキテクチャを採用、48層ネットワーク構造、32個のアテンションヘッド

モデル能力

人間画像特徴抽出

高解像度画像処理

視覚表現学習

転移学習

使用事例

コンピュータビジョン

人体姿勢推定

高解像度画像から人体姿勢特徴を抽出するために使用

顔認識

顔認識システムの基礎特徴抽出器として使用可能

拡張現実

バーチャルアバター生成

高精細な人間のバーチャルアバター生成に使用

🚀 Pretrain-Sapiens-2B

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。Sapiens-2Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化性能を示します。

🚀 クイックスタート

Pretrained 2Bモデルは、特徴抽出、微調整、または新しいモデルの学習の起点として使用できます。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。
事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。
Sapiens-2Bはネイティブで1Kの高解像度推論をサポートしています。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化性能を示します。

📚 ドキュメント

モデルの詳細

開発元: Meta
モデルタイプ: ビジョントランスフォーマー
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: 事前学習
フォーマット: オリジナル
ファイル: sapiens_2b_epoch_660_clean.pth

モデルカード

属性	详情
画像サイズ	1024 x 1024
パラメータ数	21.63億
FLOPs	8.709 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1920
レイヤー数	48
ヘッド数	32
フィードフォワードチャネル	7680