すべてのカテゴリ

姿勢推定

2025年最高の 28 個の姿勢推定ツール

SuperPointは、自己教師あり学習で訓練された全畳み込みネットワークで、関心点検出と記述に使用されます。

magic-leap-community

Vitpose Base Simple

ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの精度を達成し、モデルの簡潔さ、スケーラビリティ、トレーニングの柔軟性などの利点があります

Transformers 英語

Vitpose Plus Small

ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。

Vitpose Plus Base

ViTPoseは視覚Transformerベースの人体姿勢推定モデルで、シンプルな設計によりMS COCOキーポイント検出ベンチマークで81.1 APの優れた性能を達成しました。

Transformers 英語

Superglue Outdoor

SuperGlueはグラフニューラルネットワークベースの特徴マッチングモデルで、画像中の関心点をマッチングするために使用され、画像マッチングや姿勢推定タスクに適しています。

magic-leap-community

Vitpose Plus Huge

ViTPose++はビジョントランスフォーマーを基盤とした人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APという優れた性能を達成しました。

img2poseはFaster R-CNNベースのモデルで、写真内の全ての顔の6自由度姿勢（6DoF）を予測し、3D顔を2D平面に投影できます。

Vitpose Plus Large

ViTPose++はビジョントランスフォーマーに基づく人体姿勢推定の基本モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成しました。

Synthpose Vitpose Huge Hf

SynthPoseはVitPose巨大バックボーンネットワークを基にしたキーポイント検出モデルで、合成データによるファインチューニングにより52の人体キーポイントを予測し、運動学分析に適しています。

Sapiens Pose 1b Torchscript

Sapiensは3億枚の1024x1024解像度人体画像で事前学習された視覚Transformerモデルで、高精度な姿勢推定タスクのために設計されています。

姿勢推定英語

Synthpose Vitpose Base Hf

SynthPoseはVitPose Baseをベースとした2D人体姿勢推定モデルで、合成データによる微調整を行い、52の解剖学的キーポイントを予測可能

Reloc3rは、事前学習済みの双視点相対カメラ姿勢回帰ネットワークと多視点運動平均モジュールを組み合わせた、簡潔で効率的なカメラ姿勢推定フレームワークです。

ビジョントランスフォーマーを基盤とした人体姿勢推定モデルで、MS COCOキーポイントテストセットで81.1 APの優れた性能を達成

Transformers 英語

Lightglue Superpoint

LightGlueは、コンピュータビジョンにおける特徴マッチングと姿勢推定の問題に使用される、効率的なキーポイント検出とマッチングモデルです。

Reloc3rは、視覚位置推定のための大規模相対カメラ姿勢回帰モデルで、汎用性、高速性、高精度を特徴としています。

Vitpose Base Simple

これはtransformersベースのキーポイント検出モデルで、画像内のキーポイント位置を識別します

Sapiens Pose Bbox Detector

RTMDet検出器は、Sapiens姿勢推定モデルとの連携のために特別に設計された効率的な検出器で、人体キーポイント検出タスクに使用されます。

Sapiens Pose 1b

Pose-Sapiens-1Bは、ビジョントランスフォーマーアーキテクチャに基づく高解像度人体姿勢推定モデルで、3億枚の1024x1024解像度の人間画像で事前学習されており、308のキーポイント検出（身体、顔、手、足）をサポートします。

姿勢推定英語

Poseless-3Bは、視覚言語モデル（VLM）ベースのロボットハンド制御フレームワークで、明示的な姿勢推定なしに2D画像を関節角度に直接マッピングできます。

Sapiens Pose 0.3b Torchscript

Sapiensは3億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、姿勢推定タスク向けに設計されており、308のキーポイント検出をサポートします。

姿勢推定英語

Vitpose Base Coco Aic Mpii

ViTPoseはビジョントランスフォーマーをベースとした人体姿勢推定モデルで、シンプルなアーキテクチャ設計によりMS COCOなどのベンチマークで優れた性能を発揮します。

Transformers 英語

Vitpose Base Simple

ViTアーキテクチャに基づく軽量な姿勢推定モデルで、人体のキーポイント検出に使用されます

Sapiens Pose 1b Bfloat16

Sapiensは3億枚の1024x1024解像度の人間画像で事前学習されたビジョントランスフォーマーシリーズモデルで、人間中心の視覚タスクに特化しています。

姿勢推定英語

Sapiens Pose 0.6b Torchscript

Sapiensは3億枚の高解像度人間画像で事前学習された視覚Transformerモデルで、姿勢推定タスク向けに設計されており、308のキーポイント検出をサポートします。

姿勢推定英語

Diffusion Pusht Keypoints

Diffusion Policyでトレーニングされたロボット制御モデルで、PushTタスク専用に設計されており、キーポイント観測データを使用してトレーニングされています

Vitpose Base Simple

ViTPoseは標準的なビジョントランスフォーマーを基にした人体姿勢推定ベースラインモデルで、シンプルなアーキテクチャで高性能なキーポイント検出を実現

Transformers 英語

Sapiens Pose 0.6b

Sapiensは3億枚の高解像度人間画像で事前学習されたビジョントランスフォーマーモデルファミリーで、人間中心の視覚タスクに特化しています。

姿勢推定英語

このモデルは画像や動画内のキーポイントを検出するために使用され、人体姿勢推定や顔の特徴点検出などのタスクに適しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase