Sapiens-pretrain-1b-torchscriptオープンソースモデル - 人物画像ビジュアルタスクの高精度処理に特化

Sapiens Pretrain 1b Torchscript

facebookによって開発

Sapiensは3億枚の1024x1024解像度人間画像で事前学習された視覚Transformerファミリーで、人間中心の視覚タスク向けに設計されています。

画像分類英語#高解像度ポートレート特徴抽出 #億単位パラメータ視覚Transformer #合成データ汎化

ダウンロード数 35

リリース時間 : 9/9/2024

モデル概要

Sapiens-1Bは高解像度視覚Transformerモデルで、大規模な人間画像の事前学習を経ており、特徴抽出やファインチューニングタスクに適しています。特に注釈データが不足している場合や完全に合成されたデータの場合でも優れた性能を発揮します。

モデル特徴

高解像度サポート

1K高解像度(1024x1024)画像処理をネイティブサポート

大規模事前学習

3億枚の人間画像で事前学習されており、強力な特徴抽出能力を有する

実シーン汎化

注釈データが不足している場合や完全に合成されたデータの場合でも、実データに対して優れた汎化能力を示す

効率的なアーキテクチャ

40層の視覚Transformerアーキテクチャを採用し、1536埋め込み次元と24のアテンションヘッドを備える

モデル能力

高解像度画像処理

人間画像特徴抽出

視覚表現学習

転移学習

使用事例

コンピュータビジョン

人間画像分析

人体姿勢推定、行動認識などの人間中心視覚タスクに使用

実シーンで卓越した汎化能力を示す

特徴抽出

事前学習モデルとして画像特徴を抽出し、下流タスクに使用

🚀 Pretrain-Sapiens-1B-Torchscript

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像を使って事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間を中心としたビジョンタスクに微調整すると、実環境の条件に対して汎化能力を発揮します。Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データの場合でも、実環境のデータに対して驚くほどの汎化能力を示します。

🚀 クイックスタート

Pretrained 1Bモデルは、特徴抽出、微調整、または新しいモデルの学習の起点として使用できます。

✨ 主な機能

Sapiensは、3億枚の1024 x 1024解像度の人間画像で事前学習されたビジョントランスフォーマーです。
人間中心のビジョンタスクに微調整すると、実環境の条件に汎化できます。
Sapiens-1Bはネイティブで1K高解像度推論をサポートします。
ラベル付きデータが不足している場合でも、実環境のデータに対して良好な汎化能力を示します。

📦 インストール

READMEに具体的なインストール手順が記載されていないため、このセクションは省略されます。

💻 使用例

READMEにコード例が記載されていないため、このセクションは省略されます。

📚 ドキュメント

モデルの詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像を使って事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間を中心としたビジョンタスクに微調整すると、実環境の条件に対して汎化能力を発揮します。 Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データの場合でも、実環境のデータに対して驚くほどの汎化能力を示します。

属性	详情
開発者	Meta
モデルタイプ	ビジョントランスフォーマー
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	事前学習
フォーマット	torchscript
ファイル	sapiens_1b_epoch_173_torchscript.pt2

モデルカード

属性	详情
画像サイズ	1024 x 1024
パラメータ数	11.69億
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル数	6144