免費開源的Poseless-3B模型，用於機器人手部控制，2D圖像直轉關節角度！

首頁

Poseless 3B

由Menlo開發

Poseless-3B 是一種基於視覺語言模型（VLM）的機器人手部控制框架，能夠直接將2D圖像映射到關節角度，無需顯式姿態估計。

姿態估計

Transformers

開源協議:Apache-2.0 #視覺-關節映射 #零樣本泛化 #無深度控制

下載量 65

發布時間 : 3/3/2025

模型概述

該模型利用投影表示和合成訓練數據，實現了對真實場景的零樣本泛化以及從機器人手到人手的跨形態遷移。通過投影視覺輸入並採用基於Transformer的解碼器，PoseLess在解決深度模糊性和數據稀缺等挑戰的同時，實現了魯棒、低延遲的控制。

模型特點

無深度視覺到關節控制

通過投影表示直接將2D圖像映射到關節角度，無需顯式姿態估計。

合成數據生成

利用隨機關節配置生成的合成訓練數據，減少對昂貴標註數據集的依賴。

跨形態泛化

僅通過機器人手數據訓練即可模仿人手運動，展示了跨形態泛化能力。

低延遲控制

採用基於Transformer的解碼器，實現魯棒、低延遲的控制。

模型能力

圖像到關節角度映射

機器人手部控制

跨形態泛化

無深度視覺處理

使用案例

機器人控制

機器人手部姿態控制

通過單目圖像直接控制機器人手部的關節角度。

在不依賴任何人工標註數據集的情況下，模型在關節角度預測精度上具有競爭力。

人機交互

人手姿態模仿

通過機器人手數據訓練，模仿人手的運動。

展示了模型在跨形態泛化方面的潛力。

🚀 Poseless-3B

Poseless-3B 是一個用於機器人手部控制的模型，它通過直接將 2D 圖像映射到關節角度，避免了顯式的姿態估計。該模型利用合成訓練數據，實現了對現實場景的零樣本泛化以及從機器人手到人類手的跨形態遷移。

image/png

🚀 快速開始

以下是使用 Poseless-3B 模型進行手部姿態估計的示例代碼：

import torch
from PIL import Image
from transformers import AutoProcessor, Qwen2_5_VLForConditionalGeneration
from qwen_vl_utils import process_vision_info

# 1. 加載模型和處理器
device = "cuda" if torch.cuda.is_available() else "cpu"
model_path = "homebrewltd/Poseless-3B"

model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    model_path,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16
).eval().to(device)

processor = AutoProcessor.from_pretrained(
    model_path, 
    min_pixels=256*28*28, 
    max_pixels=1280*28*28,
    trust_remote_code=True
)

# 2. 準備圖像
image = Image.open("your_hand_image.png").convert("RGB")

# 3. 創建消息
SYSTEM_PROMPT = """You are a specialized Vision Language Model designed to accurately estimate joint angles from hand pose images. Your task is to analyze images of a human or robotic hand and output precise angle measurements for each joint. Output joint angles in radians.
Output Format:
<lh_WRJ2>angle</lh_WRJ2><lh_WRJ1>angle</lh_WRJ1><lh_FFJ4>angle</lh_FFJ4><lh_FFJ3>angle</lh_FFJ3><lh_FFJ2>angle</lh_FFJ2><lh_FFJ1>angle</lh_FFJ1><lh_MFJ4>angle</lh_MFJ4><lh_MFJ3>angle</lh_MFJ3><lh_MFJ2>angle</lh_MFJ2><lh_MFJ1>angle</lh_MFJ1><lh_RFJ4>angle</lh_RFJ4><lh_RFJ3>angle</lh_RFJ3><lh_RFJ2>angle</lh_RFJ2><lh_RFJ1>angle</lh_RFJ1><lh_LFJ5>angle</lh_LFJ5><lh_LFJ4>angle</lh_LFJ4><lh_LFJ3>angle</lh_LFJ3><lh_LFJ2>angle</lh_LFJ2><lh_LFJ1>angle</lh_LFJ1><lh_THJ5>angle</lh_THJ5><lh_THJ4>angle</lh_THJ4><lh_THJ3>angle</lh_THJ3><lh_THJ2>angle</lh_THJ2><lh_THJ1>angle</lh_THJ1>
"""

messages = [
    {"role": "system", "content": f"{SYSTEM_PROMPT}"},
    {
        "role": "user",
        "content": [
            {
                "type": "image",
                "image": image,
                "min_pixels": 1003520,
                "max_pixels": 1003520,
            },
            {"type": "text", "text": "<Pose>"},
        ],
    },
]

# 4. 處理並獲取預測結果
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt").to(device)

# 5. 生成輸出
generated_ids = model.generate(**inputs, max_new_tokens=1024)
generated_ids_trimmed = [out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]

print(output_text)  # 這將以 XML 格式顯示關節角度

輸出將是以 XML 格式表示的弧度制關節角度：

<lh_WRJ2>angle</lh_WRJ2><lh_WRJ1>angle</lh_WRJ1><lh_FFJ4>angle</lh_FFJ4>...

✨ 主要特性

創新框架：利用 VLM（如 Qwen 2.5 3B Instruct）直接將單目圖像映射到機器人關節角度，完全繞過姿態估計。VLM 能夠“觀察”和投影圖像，實現了強大的、與形態無關的特徵提取，減少了兩階段管道中固有的誤差傳播。
合成數據管道：通過隨機化關節角度和對視覺特徵（如光照、紋理）進行域隨機化，生成無限的訓練示例。這消除了對昂貴的標記數據集的依賴，同時確保了對現實世界變化的魯棒性。
跨形態泛化：模型展示了跨形態泛化能力，儘管僅在機器人手部數據上進行訓練，但仍能模仿人類手部動作。這些發現為更廣泛的應用理解和利用這種泛化能力邁出了重要一步。
無深度控制：證明了無深度控制是可行的，為後續採用不支持深度估計能力的相機鋪平了道路，而這種相機在機器人研究中經常使用。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	Qwen 2.5 3B Instruct，針對手部姿態估計進行了微調
訓練數據	homebrewltd/robot-hand-poses-train
評估數據	homebrewltd/robotic-hand-poses-eval
許可證	Apache-2.0 許可證
開發者	Alan Dao, Dinh Bach Vu, Tuan Le Duc Anh, Bui Quang Huy (Menlo Research)

論文引用

arxiv.org/abs/2503.07111