オープンソースのSapiens-seg-0.3b-torchscriptモデル - 1K高解像度推論に対応、優れた汎化能力を持つ

Sapiens Seg 0.3b Torchscript

facebookによって開発

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーモデルファミリーで、1K高解像度推論をサポートし、アノテーションデータが不足しているか完全に合成された場合でも実データに対する優れた汎化能力を発揮します。

画像セグメンテーション英語#高解像度人体セグメンテーション #28種類の身体部位認識 #3億枚の画像事前学習

ダウンロード数 56

リリース時間 : 9/9/2024

モデル概要

Seg 0.3Bモデルは人間画像の28種類の身体部位セグメンテーションに使用できます。

モデル特徴

高解像度対応

1K高解像度推論をネイティブサポート、画像サイズは1024x768です。

強力な汎化能力

アノテーションデータが不足しているか完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

効率的な計算

計算量は1.242 TFLOPs、ブロックサイズ16x16、埋め込み次元1024です。

モデル能力

人間画像セグメンテーション

高解像度画像処理

28種類の身体部位認識

使用事例

医療画像

身体部位セグメンテーション

医療画像において人体の各部位を正確に分割するために使用されます。

28種類の身体部位セグメンテーションをサポートします。

仮想現実

バーチャルアバター作成

仮想現実アプリケーションで高精度な人体モデルを作成するために使用されます。

高解像度対応により、バーチャルアバターのディテール表現が向上します。

🚀 Seg-Sapiens-0.3B-Torchscript

Sapiensは、1024 x 1024の画像解像度で3億枚の人間画像を事前学習したビジョントランスフォーマーのファミリーです。この事前学習モデルは、人間中心のビジョンタスクに微調整すると、実環境でも汎化性能を発揮します。

🚀 クイックスタート

Sapiens-0.3Bは、1Kの高解像度推論をネイティブにサポートしています。得られたモデルは、ラベル付きデータが不足している場合や完全に合成データの場合でも、実環境のデータに対して卓越した汎化性能を示します。

✨ 主な機能

開発元: Meta
モデルタイプ: ビジョントランスフォーマー
ライセンス: Creative Commons Attribution-NonCommercial 4.0
タスク: セグメンテーション
フォーマット: torchscript
ファイル: sapiens_0.3b_goliath_best_goliath_mIoU_7673_epoch_194_torchscript.pt2

📚 ドキュメント

モデルカード

属性	详情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.336 B
FLOPs	1.242 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1024
レイヤー数	24
ヘッド数	16
フィードフォワードチャネル	4096

その他のリソース

リポジトリ: https://github.com/facebookresearch/sapiens
論文: https://arxiv.org/abs/2408.12569
デモ: https://huggingface.co/spaces/facebook/sapiens-seg
プロジェクトページ: https://about.meta.com/realitylabs/codecavatars/sapiens
追加結果: https://rawalkhirodkar.github.io/sapiens
HuggingFaceコレクション: https://huggingface.co/collections/facebook/sapiens-66d22047daa6402d565cb2fc

💻 使用例

Seg 0.3Bモデルは、人間の画像に対して28クラスの身体部位セグメンテーションを実行するために使用できます。

📄 ライセンス

このモデルは、Creative Commons Attribution-NonCommercial 4.0のライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご