Sapiensオープンソースビジョンモデル - 3億枚の画像を基に事前学習され、高解像度推論とシーンの汎化をサポート

ホーム

Sapiens Pretrain 2b Bfloat16

facebookによって開発

Sapiensは3億枚の1024x1024解像度人間画像で事前学習された視覚Transformerモデルファミリーで、高解像度推論と実世界シーンへの汎化をサポートします。

画像分類英語#高解像度ポートレート特徴抽出 #21億パラメータ視覚Transformer #1024x1024画像処理

ダウンロード数 20

リリース時間 : 9/10/2024

モデル概要

Sapiens-2Bは視覚Transformerアーキテクチャに基づく事前学習モデルで、人間中心の視覚タスク向けに設計されており、アノテーションデータが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

モデル特徴

高解像度サポート

1024x1024高解像度画像処理をネイティブサポートし、高品質な視覚データ処理に適しています。

大規模事前学習

3億枚の人間画像で事前学習されており、強力な特徴抽出能力を備えています。

実世界シーン汎化

アノテーションデータが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

効率的な計算

bfloat16フォーマットを採用し、計算効率とモデル精度のバランスを取っています。

モデル能力

高解像度画像処理

人間画像特徴抽出

視覚タスクのファインチューニング

実世界シーン汎化

使用事例

コンピュータビジョン

人体姿勢推定

事前学習済み特徴を利用した人体姿勢認識と分析。

顔認識

高解像度画像に基づく顔特徴抽出と認識。

拡張現実

バーチャルアバター生成

リアルな仮想人物像の生成に使用されます。

🚀 Pretrain-Sapiens-2B-Bfloat16

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。Sapiens-2Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化性能を示します。

✨ 主な機能

3億枚の人間画像を用いた事前学習
1024 x 1024の画像解像度に対応
ネイティブで1Kの高解像度推論をサポート
実環境のデータに対する高い汎化性能

📚 ドキュメント

モデル詳細

属性	详情
開発者	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	事前学習
フォーマット	bfloat16
ファイル	sapiens_2b_epoch_660_bfloat16.pt2

モデルカード

属性	详情
画像サイズ	1024 x 1024
パラメータ数	2.163 B
FLOPs	8.709 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1920
レイヤー数	48
ヘッド数	32
フィードフォワードチャネル数	7680