Sapiens-seg-foreground-1b-torchscriptオープンソースモデル - 前景人物分割タスクを簡単に完了

ホーム

Sapiens Seg Foreground 1b Torchscript

facebookによって開発

Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルで、前景人物セグメンテーションタスク向けに設計されています。

画像セグメンテーション英語#高解像度人物セグメンテーション #億単位パラメータViT #実シーン汎化

ダウンロード数 25

リリース時間 : 9/9/2024

モデル概要

このモデルは画像から前景人物をセグメント化するために使用され、1K高解像度推論をサポートし、実シーンで優れた汎化能力を示します。

モデル特徴

高解像度サポート

1K高解像度推論をネイティブサポート、画像サイズは1024 x 768まで可能。

大規模事前学習

3億枚の1024 x 1024解像度人間画像で事前学習済み。

優れた汎化能力

アノテーションデータが不足している場合や完全合成データでも、実データに対して優れた汎化能力を発揮。

モデル能力

前景人物セグメンテーション

高解像度画像処理

使用事例

画像編集

人物背景分離

画像から前景人物と背景を精密に分離。

高品質な前景人物セグメンテーション結果を生成

仮想現実

アバター作成

実人物に基づくバーチャルアバター作成に利用。

🚀 Seg-Foreground-Background-Sapiens-1B-Torchscript

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に一般化されます。

🚀 クイックスタート

このセクションでは、Seg-Foreground 1Bモデルの概要と基本的な使用方法を説明します。このモデルは画像から前景の人間をセグメント化するために使用できます。

✨ 主な機能

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。
事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に一般化されます。
Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。
結果として得られるモデルは、ラベル付きデータが不足している場合や完全に合成されたデータであっても、実環境のデータに対して顕著な一般化能力を示します。

📚 ドキュメント

モデルの詳細

Sapiensは、1024 x 1024の画像解像度で3億枚の人間の画像で事前学習されたビジョントランスフォーマーのファミリーです。事前学習されたモデルは、人間中心のビジョンタスクに微調整されると、実環境の条件に一般化されます。 Sapiens-1Bはネイティブで1Kの高解像度推論をサポートしています。結果として得られるモデルは、ラベル付きデータが不足している場合や完全に合成されたデータであっても、実環境のデータに対して顕著な一般化能力を示します。

属性	详情
開発者	Meta
モデルタイプ	ビジョントランスフォーマー
ライセンス	Creative Commons Attribution-NonCommercial 4.0
タスク	セグメンテーション
フォーマット	torchscript
ファイル	sapiens_1b_seg_foreground_epoch_8_torchscript.pt2

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	1.169 B
FLOPs	4.647 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1536
レイヤー数	40
ヘッド数	24
フィードフォワードチャネル	6144