Libero-Object-1开源视觉语言动作模型 - 为机器人领域应用与研究助力

首页

Libero Object 1

由 Hume-vla 开发

Hume-Libero_Object是一个在Libero-Object数据集上训练的双系统视觉-语言-动作模型，具备系统2思维能力，适用于机器人领域的研究和应用。

多模态融合

Transformers

英语开源协议:MIT #机器人视觉-语言-动作 #双系统推理 #任务导向控制

下载量 2,836

发布时间 : 6/13/2025

模型简介

该模型结合视觉、语言和动作处理能力，能够在机器人任务中实现高级决策和动作规划。

模型特点

双系统思维

结合系统1（快速直觉）和系统2（慢速推理）的思维能力，提高决策质量

多模态处理

同时处理视觉、语言和动作信息，实现复杂任务理解与执行

机器人应用优化

专门针对机器人领域的任务进行优化，如物体操作和任务规划

模型能力

视觉信息处理

语言指令理解

动作规划与执行

多模态信息融合

复杂任务推理

使用案例

机器人操作

物体抓取与放置

根据语言指令完成物体的抓取和放置任务

复杂任务执行

理解多步骤指令并执行相应的动作序列

人机交互

自然语言控制

通过自然语言指令控制机器人行为

🚀 Hume-Libero_Object模型卡片

Hume-Libero_Object是一个在Libero-Object数据集上训练的双系统视觉-语言-动作模型，具备系统2思维能力。它能在机器人领域发挥重要作用，为相关研究和应用提供有力支持。

🚀 快速开始

如果你想复现论文中的结果，请遵循此说明。如果你想直接使用该模型，请参考以下代码示例：

from hume import HumePolicy
import numpy as np

# 加载策略
hume = HumePolicy.from_pretrained("/path/to/checkpoints")

# 配置测试时计算参数
hume.init_infer(
    infer_cfg=dict(
        replan_steps=8,
        s2_replan_steps=16,
        s2_candidates_num=5,
        noise_temp_lower_bound=1.0,
        noise_temp_upper_bound=1.0,
        time_temp_lower_bound=0.9,
        time_temp_upper_bound=1.0,
        post_process_action=True,
        device="cuda",
    )
)

# 准备观测数据
observation = {
    "observation.images.image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.images.wrist_image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.state": np.zeros((1, 7)), # (B, state_dim)
    "task": ["Lift the papper"],
}

# 推断动作
action = hume.infer(observation) # (B, action_dim)

💻 使用示例

基础用法

from hume import HumePolicy
import numpy as np

# 加载策略
hume = HumePolicy.from_pretrained("/path/to/checkpoints")

# 配置测试时计算参数
hume.init_infer(
    infer_cfg=dict(
        replan_steps=8,
        s2_replan_steps=16,
        s2_candidates_num=5,
        noise_temp_lower_bound=1.0,
        noise_temp_upper_bound=1.0,
        time_temp_lower_bound=0.9,
        time_temp_upper_bound=1.0,
        post_process_action=True,
        device="cuda",
    )
)

# 准备观测数据
observation = {
    "observation.images.image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.images.wrist_image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.state": np.zeros((1, 7)), # (B, state_dim)
    "task": ["Lift the papper"],
}

# 推断动作
action = hume.infer(observation) # (B, action_dim)

高级用法

# 这里可以根据实际的高级使用场景进行说明，由于原文档未提及，暂保留代码示例
from hume import HumePolicy
import numpy as np

# 加载策略
hume = HumePolicy.from_pretrained("/path/to/checkpoints")

# 配置测试时计算参数
hume.init_infer(
    infer_cfg=dict(
        replan_steps=8,
        s2_replan_steps=16,
        s2_candidates_num=5,
        noise_temp_lower_bound=1.0,
        noise_temp_upper_bound=1.0,
        time_temp_lower_bound=0.9,
        time_temp_upper_bound=1.0,
        post_process_action=True,
        device="cuda",
    )
)

# 准备观测数据
observation = {
    "observation.images.image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.images.wrist_image": np.zeros((1,224,224,3), dtype = np.uint8), # (B, H, W, C)
    "observation.state": np.zeros((1, 7)), # (B, state_dim)
    "task": ["Lift the papper"],
}

# 推断动作
action = hume.infer(observation) # (B, action_dim)

📄 许可证

本项目采用MIT许可证。

📚 引用

如果你使用了该模型，请引用以下论文：

@article{song2025hume,
  title={Hume: Introducing System-2 Thinking in Visual-Language-Action Model},
  author={Anonimous Authors},
  journal={arXiv preprint arXiv:2505.21432},
  year={2025}
}

📋 模型信息

属性	详情
模型类型	双系统视觉-语言-动作模型，具备系统2思维能力
训练数据	IPEC-COMMUNITY/libero_object_no_noops_lerobot
基础模型	Hume-vla/Hume-System2
库名称	transformers
标签	VLA
论文链接	https://arxiv.org/abs/2505.21432
主页	https://hume-vla.github.io
代码库	🧰 Hume: A Dual-System VLA with System2 Thinking