P

Poseless 3B

Menloによって開発
Poseless-3Bは、視覚言語モデル(VLM)ベースのロボットハンド制御フレームワークで、明示的な姿勢推定なしに2D画像を関節角度に直接マッピングできます。
ダウンロード数 65
リリース時間 : 3/3/2025

モデル概要

このモデルは、投影表現と合成トレーニングデータを活用し、実世界シーンへのゼロショット汎化とロボットハンドから人間の手への形態間転移を実現しています。投影された視覚入力を使用し、Transformerベースのデコーダを採用することで、PoseLessは深度の曖昧さやデータ不足といった課題を解決しつつ、ロバストで低遅延の制御を実現しています。

モデル特徴

深度不要の視覚-関節制御
投影表現により2D画像を関節角度に直接マッピング、明示的な姿勢推定が不要です。
合成データ生成
ランダムな関節構成で生成した合成トレーニングデータを使用し、高価な注釈付きデータセットへの依存を軽減。
形態間汎化
ロボットハンドデータのみで訓練しながら人間の手の動きを模倣、形態間汎化能力を実証。
低遅延制御
Transformerベースのデコーダを採用し、ロバストで低遅延の制御を実現。

モデル能力

画像から関節角度へのマッピング
ロボットハンド制御
形態間汎化
深度不要の視覚処理

使用事例

ロボット制御
ロボットハンド姿勢制御
単眼画像から直接ロボットハンドの関節角度を制御。
人工的な注釈付きデータセットに依存せず、関節角度予測精度で競争力のある性能を発揮。
人間-ロボットインタラクション
人間の手の動きの模倣
ロボットハンドデータで訓練後、人間の手の動きを模倣。
形態間汎化におけるモデルの潜在能力を示しています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase