オープンソースのsapiens - pose - 0.6b - torchscriptモデル - 高精度なポーズ推定、308個のキーポイント検出をサポート

ホーム

Sapiens Pose 0.6b Torchscript

facebookによって開発

Sapiensは3億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、姿勢推定タスク向けに設計されており、308のキーポイント検出をサポートします。

姿勢推定英語#高解像度姿勢推定 #全身キーポイント検出 #3億枚の画像事前学習

ダウンロード数 29

リリース時間 : 9/18/2024

モデル概要

このモデルは高精度な姿勢推定モデルで、身体、顔、手、足の308のキーポイントを検出でき、人間中心の様々な視覚タスクに適用可能です。

モデル特徴

高解像度サポート

1024x1024解像度入力をネイティブサポートし、高精度姿勢推定ニーズに適しています。

多部位キーポイント検出

身体、顔、手、足の合計308のキーポイントを同時に検出可能です。

強力な汎化能力

アノテーションデータが不足している場合や完全に合成された場合でも、実データに対する優れた汎化能力を発揮します。

モデル能力

人体姿勢推定

顔キーポイント検出

手キーポイント検出

足キーポイント検出

使用事例

人間とコンピュータの相互作用

仮想現実制御

VR環境での精密な人体動作キャプチャに使用

全身動作の高精度追跡

スポーツ分析

アスリート動作分析

アスリートの動作姿勢と技術を分析

詳細分析のため308のキーポイントを検出可能

属性	詳情
画像サイズ	1024 x 768 (H x W)
パラメータ数	0.664 B
FLOPs	2.583 TFLOPs
パッチサイズ	16 x 16
埋め込み次元数	1280
レイヤー数	32
ヘッド数	16
フィードフォワードチャネル数	5120

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Sapiens Pose 0.6b Torchscript

モデル概要

モデル特徴

モデル能力

使用事例

🚀 Pose-Sapiens-0.6B-Torchscript

✨ 主な機能

📚 ドキュメント

モデル詳細

モデルカード

その他のリソース

📄 ライセンス