sapiens - seg - 1b - bfloat16 オープンソースビジュアルモデル - 人を中心としたビジュアルタスク処理に特化

ホーム

Sapiens Seg 1b Bfloat16

facebookによって開発

Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルで、人間中心の視覚タスクに特化

画像セグメンテーション英語#高解像度人体セグメンテーション #28部位認識 #合成データ汎化

ダウンロード数 42

リリース時間 : 9/10/2024

モデル概要

このモデルは人間画像の28種類の身体部位セグメンテーションに使用され、1K高解像度推論をサポートし、実シーンで優れた汎化能力を発揮

モデル特徴

高解像度サポート

1024x1024解像度入力をネイティブサポート、高精度セグメンテーションタスクに適応

大規模事前学習

3億枚の人間画像に基づく事前学習で豊富な視覚特徴を学習

実シーン汎化

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対して良好な性能を維持

効率的な推論

bfloat16フォーマットを採用し、精度と計算効率のバランスを最適化

モデル能力

人体部位セグメンテーション

高解像度画像処理

マルチクラス意味セグメンテーション

使用事例

医療画像

手術計画支援

術前の人体解剖構造の精密セグメンテーションに使用

28種類の身体部位の精密セグメンテーション結果を提供

仮想現実

バーチャルアバター作成

高精細バーチャル人物の身体部位セグメンテーション生成に使用

リアルなバーチャルアバターの身体部位認識をサポート

🚀 Seg-Sapiens-1B-Bfloat16

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。

🚀 クイックスタート

Seg-Sapiens-1B-Bfloat16モデルは、人間画像に対して28クラスの身体部位セグメンテーションを行うために使用できます。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。
事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。
Sapiens-1Bは、ネイティブで1Kの高解像度推論をサポートしています。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化性能を示します。

📚 ドキュメント

モデル詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件に対して汎化性能を発揮します。 Sapiens-1Bは、ネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して顕著な汎化性能を示します。

属性	详情
開発元	Meta
モデルタイプ	ビジョントランスフォーマー
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	セグメンテーション
フォーマット	bfloat16
ファイル	sapiens_1b_goliath_best_goliath_mIoU_7994_epoch_151_bfloat16.pt2

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	11.69億
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル	6144