Sapiens-pretrain-1bオープンソースビジョンモデル - 人中心のビジュアルタスクに特化した無料デプロイ

ホーム

Sapiens Pretrain 1b

facebookによって開発

Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心の視覚タスクに特化しています。

人の顔に関係がある英語#高解像度ビジョン #人間画像特徴抽出 #合成データ汎化

ダウンロード数 48

リリース時間 : 9/10/2024

モデル概要

Sapiens-1Bは10億パラメータ規模のビジョントランスフォーマーモデルで、大規模な人間画像の事前学習を経ており、1K高解像度推論をサポートし、注釈データが不足している場合や完全に合成された場合でも優れた汎化能力を発揮します。

モデル特徴

高解像度処理

1024×1024解像度の画像入力をネイティブサポートし、豊富な視覚的詳細を保持

データ効率

注釈データが不足している場合や完全に合成データの場合でも良好な性能を維持

大規模事前学習

3億枚の人間画像に基づいて事前学習され、豊富な人間の特徴表現を学習

実シーン汎化

人間中心の視覚タスクに微調整後、実シーンに効果的に汎化可能

モデル能力

人間画像特徴抽出

高解像度画像処理

視覚表現学習

転移学習ベースモデル

使用事例

コンピュータビジョン

人体姿勢分析

高解像度画像から人体姿勢特徴を抽出

バーチャルアバター生成

Codec Avatarプロジェクトのベースモデルとして、高精細バーチャルアバター生成をサポート

医療画像

医学画像分析

医療画像における人体特徴抽出と分析を支援

🚀 Pretrain-Sapiens-1B

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。

🚀 クイックスタート

Pretrained 1Bモデルは、特徴抽出、微調整、または新しいモデルの学習の起点として使用できます。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像を事前学習したビジョントランスフォーマーのファミリーです。
Sapiens-1Bは、ネイティブで1Kの高解像度推論をサポートします。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

📚 ドキュメント

モデル詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に汎化します。 Sapiens-1Bは、ネイティブで1Kの高解像度推論をサポートします。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

属性	详情
開発元	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	事前学習
フォーマット	オリジナル
ファイル	sapiens_1b_epoch_173_clean.pth

モデルカード

属性	详情
画像サイズ	1024 x 1024
パラメータ数	1.169 B
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル数	6144