サピエンス事前学習0.6Bオープンソースモデル - 大量の人体画像に基づく事前学習、人を中心としたビジュアルタスクに特化

ホーム

Sapiens Pretrain 0.6b

facebookによって開発

Sapiensは3億枚の1024×1024解像度人体画像で事前学習された視覚Transformerモデルで、人間中心の視覚タスクに優れています。

画像分類英語#高解像度人体視覚 #合成データ汎化 #1K画像処理

ダウンロード数 13

リリース時間 : 9/10/2024

モデル概要

6億パラメータの視覚Transformerモデルで、1K高解像度推論をネイティブサポートし、注釈データが不足している場合や完全に合成データの場合でも実データに対して優れた汎化能力を示します。

モデル特徴

高解像度サポート

1024×1024解像度画像処理をネイティブサポート

データ効率

注釈データが不足している場合や完全に合成データの場合でも良好に汎化

大規模事前学習

3億枚の人体画像に基づいて事前学習

モデル能力

人体画像特徴抽出

高解像度画像処理

視覚表現学習

使用事例

コンピュータビジョン

人体姿勢推定

高解像度画像から人体姿勢特徴を抽出

バーチャルアバター生成

リアルなデジタルヒューマン生成に使用

🚀 Pretrain-Sapiens-0.6B

Sapiensは、1024x1024の画像解像度で3億枚の人間画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。

🚀 クイックスタート

Pretrain-Sapiens-0.6Bモデルは、特徴抽出、微調整、または新しいモデルの学習の起点として使用できます。

✨ 主な機能

Sapiensは、1024x1024の画像解像度で3億枚の人間画像で事前学習されたビジョントランスフォーマーのファミリーです。
Sapiens-0.6Bは、ネイティブで1Kの高解像度推論をサポートしています。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

📚 ドキュメント

モデル詳細

Sapiensは、1024x1024の画像解像度で3億枚の人間画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。 Sapiens-0.6Bは、ネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

属性	详情
開発者	Meta
モデルタイプ	ビジョントランスフォーマー
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	事前学習
フォーマット	オリジナル
ファイル	sapiens_0.6b_epoch_1600_clean.pth

モデルカード

属性	详情
画像サイズ	1024 x 1024
パラメータ数	0.664 B
FLOPs	2.583 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1280
レイヤー数	32
ヘッド数	16
フィードフォワードチャネル数	5120