sapiens - seg - 0.6b - torchscriptオープンソースのビジュアルモデル、人を中心としたビジュアルタスクを正確に処理

ホーム

Sapiens Seg 0.6b Torchscript

facebookによって開発

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習された視覚Transformerモデルファミリーで、人間中心の視覚タスクに特化しています。

画像セグメンテーション英語#高解像度人体セグメンテーション #28種類の部位認識 #合成データ汎化

ダウンロード数 25

リリース時間 : 9/9/2024

モデル概要

このモデルは人間画像の28種類の身体部位セグメンテーションに使用され、1K高解像度推論をサポートし、アノテーションデータが不足している場合や完全に合成された場合でも実データに対する優れた汎化能力を発揮します。

モデル特徴

高解像度サポート

ネイティブで1K高解像度推論をサポートし、画像サイズは1024x768です。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

大規模事前学習

3億枚の1024x1024解像度の人間画像で事前学習されています。

モデル能力

人体画像セグメンテーション

高解像度画像処理

28種類の身体部位認識

使用事例

医療画像

身体部位セグメンテーション

医療画像において人体の各部位を正確に分割するために使用されます。

28種類の身体部位を認識可能

仮想現実

バーチャルアバター作成

高精度な仮想人物像を作成するために使用されます。

属性	詳情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.664 B
FLOPs	2.583 TFLOPs
パッチサイズ	16 x 16
埋め込み次元	1280
レイヤー数	32
ヘッド数	16
フィードフォワードチャネル	5120

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Sapiens Seg 0.6b Torchscript

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Seg-Sapiens-0.6B-Torchscript

📚 ドキュメント

モデルの詳細

モデルカード

その他のリソース

💻 使用例

📄 ライセンス