🚀 FlowerVLA - 在LIBERO 10上微调的视觉-语言-动作流模型
FlowerVLA是一个在LIBERO 10数据集上训练的用于机器人操作的预训练模型。Flower是一种高效的用于机器人学习的视觉-语言-动作流策略,仅包含10亿个参数,能为机器人操作任务提供有效的解决方案。
🚀 快速开始
您可以在Github上查看我们完整的模型实现 todo,并按照README中的说明在其中一个环境中测试该模型。
obs = {
"rgb_obs": {
"rgb_static": static_image,
"rgb_gripper": gripper_image
}
}
10 = {"lang_text": "pick up the blue cube"}
action = model.step(obs, 10)
✨ 主要特性
FlowerVLA是一种新颖的架构,具有以下特点:
- 使用Florence - 2的一半进行多模态视觉语言编码。
- 采用了一种基于Transformer的新型流匹配架构。
- 仅用约10亿个参数就提供了一种高效、通用的视觉-语言-动作(VLA)策略。
📚 详细文档
模型性能
此检查点包含用于LIBERO 10挑战的权重,并取得了以下结果:
- eval_lh/avg_seq_len成功率:0.9440705180168152
- eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_alphabet_soup_and_the_tomato_sauce_in_the_basket成功率:0.9791666666666666
- eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_cream_cheese_box_and_the_butter_in_the_basket成功率:1.0
- eval_lh/sr_KITCHEN_SCENE3_turn_on_the_stove_and_put_the_moka_pot_on_it成功率:0.9791666666666666
- eval_lh/sr_KITCHEN_SCENE4_put_the_black_bowl_in_the_bottom_drawer_of_the_cabinet_and_close_it成功率:1.0
- eval_lh/sr_LIVING_ROOM_SCENE5_put_the_white_mug_on_the_left_plate_and_put_the_yellow_and_white_mug_on_the_right_plate成功率:0.9407051282051282
- eval_lh/sr_STUDY_SCENE1_pick_up_the_book_and_place_it_in_the_back_compartment_of_the_caddy成功率:1.0
- eval_lh/sr_LIVING_ROOM_SCENE6_put_the_white_mug_on_the_plate_and_put_the_chocolate_pudding_to_the_right_of_the_plate成功率:0.8990384615384616
- eval_lh/sr_LIVING_ROOM_SCENE1_put_both_the_alphabet_soup_and_the_cream_cheese_box_in_the_basket成功率:1.0
- eval_lh/sr_KITCHEN_SCENE8_put_both_moka_pots_on_the_stove成功率:0.7403846153846154
- eval_lh/sr_KITCHEN_SCENE6_put_the_yellow_and_white_mug_in_the_microwave_and_close_it成功率:0.9022435897435898
输入/输出规格
输入
- RGB静态相机:
(B, T, 3, H, W)
张量
- RGB夹爪相机:
(B, T, 3, H, W)
张量
- 语言指令:文本字符串
输出
- 动作空间:
(B, T, 7)
张量,表示末端执行器(EEF)的增量动作
🔧 技术细节
训练配置
- 优化器:AdamW
- 学习率:2e - 5
- 权重衰减:0.05
引用
@inproceedings{
reuss2025flower,
# Add citation when available
}
📄 许可证
该模型根据MIT许可证发布。
📦 模型信息
属性 |
详情 |
基础模型 |
microsoft/Florence - 2 - large |
模型类型 |
视觉-语言-动作流模型 |
训练数据 |
LIBERO 10数据集 |
任务类型 |
机器人操作 |
标签 |
VLA、LIBERO、Robotics、Flow |