flower_libero_10開源模型 - 助力機器人操作任務，小參數也有大作為！

首頁

Flower Libero 10

由mbreuss開發

FlowerVLA是一個針對機器人操作任務預訓練的視覺-語言-動作流策略模型，訓練數據來自LIBERO 10數據集，僅包含10億參數。

多模態融合

Safetensors

英語開源協議:MIT #機器人操作控制 #視覺語言動作流 #LIBERO微調

下載量 14

發布時間 : 3/17/2025

模型概述

FlowerVLA採用創新架構，使用Florence-2模型半數參數實現多模態視覺語言編碼，採用基於Transformer的新型流匹配架構，以約10億參數提供高效通用的VLA策略。

模型特點

高效多模態編碼

使用Florence-2模型半數參數實現多模態視覺語言編碼

流匹配架構

採用基於Transformer的新型流匹配架構

高效參數規模

僅包含10億參數，提供高效通用的VLA策略

高性能

在LIBERO 10挑戰賽中取得高成功率

模型能力

視覺語言動作模型

機器人操作任務

多模態編碼

流匹配

使用案例

機器人操作

將物品放入籃子

將字母湯和番茄醬放入籃子

成功率 0.9791666666666666

打開爐灶並放上摩卡壺

廚房場景3_打開爐灶並放上摩卡壺

成功率 0.9791666666666666

將黑碗放入櫥櫃底層抽屜並關閉

廚房場景4_將黑碗放入櫥櫃底層抽屜並關閉

成功率 1.0

🚀 FlowerVLA - 在LIBERO 10上微調的視覺-語言-動作流模型

FlowerVLA是一個在LIBERO 10數據集上訓練的用於機器人操作的預訓練模型。Flower是一種高效的用於機器人學習的視覺-語言-動作流策略，僅包含10億個參數，能為機器人操作任務提供有效的解決方案。

🚀 快速開始

您可以在Github上查看我們完整的模型實現 todo，並按照README中的說明在其中一個環境中測試該模型。

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
10 = {"lang_text": "pick up the blue cube"}
action = model.step(obs, 10)

✨ 主要特性

FlowerVLA是一種新穎的架構，具有以下特點：

使用Florence - 2的一半進行多模態視覺語言編碼。
採用了一種基於Transformer的新型流匹配架構。
僅用約10億個參數就提供了一種高效、通用的視覺-語言-動作（VLA）策略。

📚 詳細文檔

模型性能

此檢查點包含用於LIBERO 10挑戰的權重，並取得了以下結果：

eval_lh/avg_seq_len成功率：0.9440705180168152
eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_alphabet_soup_and_the_tomato_sauce_in_the_basket成功率：0.9791666666666666
eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_cream_cheese_box_and_the_butter_in_the_basket成功率：1.0
eval_lh/sr_KITCHEN_SCENE3_turn_on_the_stove_and_put_the_moka_pot_on_it成功率：0.9791666666666666
eval_lh/sr_KITCHEN_SCENE4_put_the_black_bowl_in_the_bottom_drawer_of_the_cabinet_and_close_it成功率：1.0
eval_lh/sr_LIVING_ROOM_SCENE5_put_the_white_mug_on_the_left_plate_and_put_the_yellow_and_white_mug_on_the_right_plate成功率：0.9407051282051282
eval_lh/sr_STUDY_SCENE1_pick_up_the_book_and_place_it_in_the_back_compartment_of_the_caddy成功率：1.0
eval_lh/sr_LIVING_ROOM_SCENE6_put_the_white_mug_on_the_plate_and_put_the_chocolate_pudding_to_the_right_of_the_plate成功率：0.8990384615384616
eval_lh/sr_LIVING_ROOM_SCENE1_put_both_the_alphabet_soup_and_the_cream_cheese_box_in_the_basket成功率：1.0
eval_lh/sr_KITCHEN_SCENE8_put_both_moka_pots_on_the_stove成功率：0.7403846153846154
eval_lh/sr_KITCHEN_SCENE6_put_the_yellow_and_white_mug_in_the_microwave_and_close_it成功率：0.9022435897435898

輸入/輸出規格

輸入

RGB靜態相機：(B, T, 3, H, W) 張量
RGB夾爪相機：(B, T, 3, H, W) 張量
語言指令：文本字符串

輸出

動作空間：(B, T, 7) 張量，表示末端執行器（EEF）的增量動作

🔧 技術細節

訓練配置

優化器：AdamW
學習率：2e - 5
權重衰減：0.05

引用

@inproceedings{
    reuss2025flower,
    # Add citation when available
}

📄 許可證

該模型根據MIT許可證發佈。

📦 模型信息

屬性	詳情
基礎模型	microsoft/Florence - 2 - large
模型類型	視覺-語言-動作流模型
訓練數據	LIBERO 10數據集
任務類型	機器人操作
標籤	VLA、LIBERO、Robotics、Flow