🚀 FlowerVLA - 在LIBERO 10上微調的視覺-語言-動作流模型
FlowerVLA是一個在LIBERO 10數據集上訓練的用於機器人操作的預訓練模型。Flower是一種高效的用於機器人學習的視覺-語言-動作流策略,僅包含10億個參數,能為機器人操作任務提供有效的解決方案。
🚀 快速開始
您可以在Github上查看我們完整的模型實現 todo,並按照README中的說明在其中一個環境中測試該模型。
obs = {
"rgb_obs": {
"rgb_static": static_image,
"rgb_gripper": gripper_image
}
}
10 = {"lang_text": "pick up the blue cube"}
action = model.step(obs, 10)
✨ 主要特性
FlowerVLA是一種新穎的架構,具有以下特點:
- 使用Florence - 2的一半進行多模態視覺語言編碼。
- 採用了一種基於Transformer的新型流匹配架構。
- 僅用約10億個參數就提供了一種高效、通用的視覺-語言-動作(VLA)策略。
📚 詳細文檔
模型性能
此檢查點包含用於LIBERO 10挑戰的權重,並取得了以下結果:
- eval_lh/avg_seq_len成功率:0.9440705180168152
- eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_alphabet_soup_and_the_tomato_sauce_in_the_basket成功率:0.9791666666666666
- eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_cream_cheese_box_and_the_butter_in_the_basket成功率:1.0
- eval_lh/sr_KITCHEN_SCENE3_turn_on_the_stove_and_put_the_moka_pot_on_it成功率:0.9791666666666666
- eval_lh/sr_KITCHEN_SCENE4_put_the_black_bowl_in_the_bottom_drawer_of_the_cabinet_and_close_it成功率:1.0
- eval_lh/sr_LIVING_ROOM_SCENE5_put_the_white_mug_on_the_left_plate_and_put_the_yellow_and_white_mug_on_the_right_plate成功率:0.9407051282051282
- eval_lh/sr_STUDY_SCENE1_pick_up_the_book_and_place_it_in_the_back_compartment_of_the_caddy成功率:1.0
- eval_lh/sr_LIVING_ROOM_SCENE6_put_the_white_mug_on_the_plate_and_put_the_chocolate_pudding_to_the_right_of_the_plate成功率:0.8990384615384616
- eval_lh/sr_LIVING_ROOM_SCENE1_put_both_the_alphabet_soup_and_the_cream_cheese_box_in_the_basket成功率:1.0
- eval_lh/sr_KITCHEN_SCENE8_put_both_moka_pots_on_the_stove成功率:0.7403846153846154
- eval_lh/sr_KITCHEN_SCENE6_put_the_yellow_and_white_mug_in_the_microwave_and_close_it成功率:0.9022435897435898
輸入/輸出規格
輸入
- RGB靜態相機:
(B, T, 3, H, W)
張量
- RGB夾爪相機:
(B, T, 3, H, W)
張量
- 語言指令:文本字符串
輸出
- 動作空間:
(B, T, 7)
張量,表示末端執行器(EEF)的增量動作
🔧 技術細節
訓練配置
- 優化器:AdamW
- 學習率:2e - 5
- 權重衰減:0.05
引用
@inproceedings{
reuss2025flower,
# Add citation when available
}
📄 許可證
該模型根據MIT許可證發佈。
📦 模型信息
屬性 |
詳情 |
基礎模型 |
microsoft/Florence - 2 - large |
模型類型 |
視覺-語言-動作流模型 |
訓練數據 |
LIBERO 10數據集 |
任務類型 |
機器人操作 |
標籤 |
VLA、LIBERO、Robotics、Flow |