Sapiens-pretrain-1b-bfloat16オープンソースビジュアルモデル - 高解像度推論で、実際のシーンに適合！

ホーム

Sapiens Pretrain 1b Bfloat16

facebookによって開発

Sapiensは3億枚の1024×1024解像度人体画像で事前学習されたビジュアルトランスフォーマーモデルで、高解像度推論と実シーン汎化をサポートします。

画像分類英語#高解像度人体画像 #ビジュアルトランスフォーマー #10億パラメータ大規模モデル

ダウンロード数 23

リリース時間 : 9/10/2024

モデル概要

このモデルは人間中心の視覚タスク向けに設計された事前学習ビジュアルトランスフォーマーで、注釈データが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

モデル特徴

高解像度サポート

1024×1024高解像度画像処理をネイティブサポート、パッチサイズは16×16

大規模事前学習

3億枚の人体画像に基づく事前学習で、強力な特徴抽出能力を有する

実シーン汎化

注釈データが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を発揮

効率的な計算

bfloat16データ形式を採用、計算量は4.647兆回浮動小数点演算

モデル能力

高解像度画像処理

人体画像特徴抽出

視覚表現学習

転移学習

使用事例

コンピュータビジョン

人体姿勢推定

事前学習特徴を利用した人体姿勢認識

注釈データが限定的な場合でも高い精度を維持

バーチャルアバター生成

リアルな人体バーチャルアバター生成に使用

生成結果のリアリティとディテール表現を向上

医療画像

医学画像分析

X線、MRIなどの医学画像の特徴抽出に応用

データが限定的な場合でも価値ある特徴表現を提供

🚀 Pretrain-Sapiens-1B-Bfloat16

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像を使って事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクにファインチューニングされると、実環境の条件にも汎化できます。Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

🚀 クイックスタート

この事前学習済みの1Bモデルは、特徴抽出、ファインチューニング、または新しいモデルの学習の起点として使用できます。

✨ 主な機能

Sapiensは3億枚の1024 x 1024の人間画像で事前学習されています。
事前学習モデルを人間中心のビジョンタスクにファインチューニングすると、実環境条件に汎化できます。
Sapiens-1Bはネイティブで1Kの高解像度推論をサポートします。
得られたモデルは、ラベル付きデータが不足している場合でも実環境データに対して良好な汎化能力を示します。

📚 ドキュメント

モデルの詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像を使って事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクにファインチューニングされると、実環境の条件にも汎化できます。 Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化能力を示します。

属性	详情
開発者	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	事前学習
フォーマット	bfloat16
ファイル	sapiens_1b_epoch_173_bfloat16.pt2

モデルカード

属性	详情
画像サイズ	1024 x 1024
パラメータ数	1.169 B
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル	6144