オープンソースのSapiens-seg-1b-torchscriptモデル - 人体中心視覚タスクに使用し、汎化能力が強い

ホーム

Sapiens Seg 1b Torchscript

facebookによって開発

Sapiensは3億枚の1024×1024解像度人体画像で事前学習されたビジョントランスフォーマーシリーズで、人体中心の視覚タスク向けに設計され、優れた汎化能力を備えています。

画像セグメンテーション英語#高解像度人体セグメンテーション #28種類の身体部位 #ViT大規模モデル

ダウンロード数 892

リリース時間 : 9/9/2024

モデル概要

このモデルは116.9億パラメータのビジョントランスフォーマーで、微調整後に28種類の人体部位の高解像度画像セグメンテーションタスクに使用できます。

モデル特徴

高解像度サポート

1K高解像度推論(1024×768)をネイティブサポートし、精密な人体部位セグメンテーションに適しています。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

大規模事前学習

3億枚の1024×1024解像度人体画像で事前学習されており、豊富な視覚表現能力を備えています。

モデル能力

人体画像セグメンテーション

28種類の身体部位認識

高解像度画像処理

使用事例

医療画像

手術計画補助

術前の人体各部位の精密なセグメンテーションと可視化に使用

手術計画の精度向上

バーチャルフィッティング

仮想衣服フィッティング

人体部位を正確にセグメント化することで、よりリアルな仮想試着効果を実現

ECユーザー体験の向上

🚀 Seg-Sapiens-1B-Torchscript

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件にも汎化できます。

🚀 クイックスタート

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整すると、実環境の条件にも汎化できます。Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データである場合でも、実環境のデータに対して卓越した汎化能力を示します。

モデルの詳細

属性	详情
開発者	Meta
モデルタイプ	ビジョントランスフォーマー
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	セグメンテーション
フォーマット	torchscript
ファイル	sapiens_1b_goliath_best_goliath_mIoU_7994_epoch_151_torchscript.pt2

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	1.169 B
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル	6144