sapiens-seg-0.6b-bfloat16オープンソース視覚モデル - 人を中心とした視覚タスク処理に特化

ホーム

Sapiens Seg 0.6b Bfloat16

facebookによって開発

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。

画像セグメンテーション英語#高解像度人体セグメンテーション #28種類の身体部位認識 #合成データ汎化

ダウンロード数 24

リリース時間 : 9/10/2024

モデル概要

このモデルは人間画像の28種類の身体部位セグメンテーションに使用され、1K高解像度推論をサポートし、実シーンで優れた汎化能力を示します。

モデル特徴

高解像度サポート

ネイティブで1K高解像度推論をサポートし、画像サイズは1024x768まで可能です。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

大規模事前学習

3億枚の1024x1024解像度人間画像に基づいて事前学習されています。

モデル能力

人体画像セグメンテーション

高解像度画像処理

多クラス身体部位認識

使用事例

医療画像

身体部位セグメンテーション

医療画像において人体の各部位を正確にセグメンテーションするために使用されます。

28種類の身体部位のセグメンテーションをサポート

仮想現実

バーチャルアバター作成

高精度の仮想人体アバターを作成するために使用されます。

🚀 Seg-Sapiens-0.6B-Bfloat16

300 million枚の人間画像で事前学習された画像セグメンテーション用のビジョントランスフォーマーモデルです。人間中心のビジョンタスクに微調整すると、実環境でも良好な汎化性能を発揮します。

🚀 クイックスタート

Seg-Sapiens-0.6B-Bfloat16は、1024 x 1024の画像解像度で3億枚の人間画像を使って事前学習されたビジョントランスフォーマーモデルです。人間中心のビジョンタスクに対して微調整すると、実環境でも良好な汎化性能を示します。Sapiens-0.6Bはネイティブで1Kの高解像度推論をサポートしており、ラベル付きデータが少ない場合や完全に合成データであっても、実環境のデータに対して顕著な汎化性能を発揮します。

✨ 主な機能

300 million枚の人間画像を使って事前学習されたビジョントランスフォーマーモデル
人間中心のビジョンタスクに微調整すると、実環境でも良好な汎化性能を示す
ネイティブで1Kの高解像度推論をサポート
ラベル付きデータが少ない場合や完全に合成データであっても、実環境のデータに対して顕著な汎化性能を発揮

📚 ドキュメント

モデル詳細

プロパティ	詳細
開発元	Meta
モデルタイプ	Vision Transformer
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	seg
フォーマット	bfloat16
ファイル	sapiens_0.6b_goliath_best_goliath_mIoU_7777_epoch_178_bfloat16.pt2

モデルカード

プロパティ	詳細
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.664 B
FLOPs	2.583 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1280
レイヤー数	32
ヘッド数	16
フィードフォワードチャネル数	5120