Libero-Object-1開源視覺語言動作模型 - 為機器人領域應用與研究助力

首頁

Libero Object 1

由Hume-vla開發

Hume-Libero_Object是一個在Libero-Object數據集上訓練的雙系統視覺-語言-動作模型，具備系統2思維能力，適用於機器人領域的研究和應用。

多模態融合

Transformers

英語開源協議:MIT #機器人視覺-語言-動作 #雙系統推理 #任務導向控制

下載量 2,836

發布時間 : 6/13/2025

模型概述

該模型結合視覺、語言和動作處理能力，能夠在機器人任務中實現高級決策和動作規劃。

模型特點

雙系統思維

結合系統1（快速直覺）和系統2（慢速推理）的思維能力，提高決策質量

多模態處理

同時處理視覺、語言和動作信息，實現複雜任務理解與執行

機器人應用優化

專門針對機器人領域的任務進行優化，如物體操作和任務規劃

模型能力

視覺信息處理

語言指令理解

動作規劃與執行

多模態信息融合

複雜任務推理

使用案例

機器人操作

物體抓取與放置

根據語言指令完成物體的抓取和放置任務

複雜任務執行

理解多步驟指令並執行相應的動作序列

人機交互

自然語言控制

通過自然語言指令控制機器人行為

🚀 Hume-Libero_Object模型卡片

Hume-Libero_Object是一個在Libero-Object數據集上訓練的雙系統視覺-語言-動作模型，具備系統2思維能力。它能在機器人領域發揮重要作用，為相關研究和應用提供有力支持。

🚀 快速開始

如果你想復現論文中的結果，請遵循此說明。如果你想直接使用該模型，請參考以下代碼示例：

from hume import HumePolicy
import numpy as np

# 加載策略
hume = HumePolicy.from_pretrained("/path/to/checkpoints")

# 配置測試時計算參數
hume.init_infer(
    infer_cfg=dict(
        replan_steps=8,
        s2_replan_steps=16,
        s2_candidates_num=5,
        noise_temp_lower_bound=1.0,
        noise_temp_upper_bound=1.0,
        time_temp_lower_bound=0.9,
        time_temp_upper_bound=1.0,
        post_process_action=True,
        device="cuda",
    )
)

# 準備觀測數據
observation = {
    "observation.images.image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.images.wrist_image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.state": np.zeros((1, 7)), # (B, state_dim)
    "task": ["Lift the papper"],
}

# 推斷動作
action = hume.infer(observation) # (B, action_dim)

💻 使用示例

基礎用法

from hume import HumePolicy
import numpy as np

# 加載策略
hume = HumePolicy.from_pretrained("/path/to/checkpoints")

# 配置測試時計算參數
hume.init_infer(
    infer_cfg=dict(
        replan_steps=8,
        s2_replan_steps=16,
        s2_candidates_num=5,
        noise_temp_lower_bound=1.0,
        noise_temp_upper_bound=1.0,
        time_temp_lower_bound=0.9,
        time_temp_upper_bound=1.0,
        post_process_action=True,
        device="cuda",
    )
)

# 準備觀測數據
observation = {
    "observation.images.image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.images.wrist_image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.state": np.zeros((1, 7)), # (B, state_dim)
    "task": ["Lift the papper"],
}

# 推斷動作
action = hume.infer(observation) # (B, action_dim)

高級用法

# 這裡可以根據實際的高級使用場景進行說明，由於原文檔未提及，暫保留代碼示例
from hume import HumePolicy
import numpy as np

# 加載策略
hume = HumePolicy.from_pretrained("/path/to/checkpoints")

# 配置測試時計算參數
hume.init_infer(
    infer_cfg=dict(
        replan_steps=8,
        s2_replan_steps=16,
        s2_candidates_num=5,
        noise_temp_lower_bound=1.0,
        noise_temp_upper_bound=1.0,
        time_temp_lower_bound=0.9,
        time_temp_upper_bound=1.0,
        post_process_action=True,
        device="cuda",
    )
)

# 準備觀測數據
observation = {
    "observation.images.image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.images.wrist_image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.state": np.zeros((1, 7)), # (B, state_dim)
    "task": ["Lift the papper"],
}

# 推斷動作
action = hume.infer(observation) # (B, action_dim)

📄 許可證

本項目採用MIT許可證。

📚 引用

如果你使用了該模型，請引用以下論文：

@article{song2025hume,
  title={Hume: Introducing System-2 Thinking in Visual-Language-Action Model},
  author={Anonimous Authors},
  journal={arXiv preprint arXiv:2505.21432},
  year={2025}
}

📋 模型信息

屬性	詳情
模型類型	雙系統視覺-語言-動作模型，具備系統2思維能力
訓練數據	IPEC-COMMUNITY/libero_object_no_noops_lerobot
基礎模型	Hume-vla/Hume-System2
庫名稱	transformers
標籤	VLA
論文鏈接	https://arxiv.org/abs/2505.21432
主頁	https://hume-vla.github.io
代碼庫	🧰 Hume: A Dual-System VLA with System2 Thinking