flower_libero_10オープンソースモデル - ロボットの操作タスクを支援し、少ないパラメータでも大きな成果をもたらします！

ホーム

Flower Libero 10

mbreussによって開発

FlowerVLAはロボット操作タスク向けに事前学習された視覚-言語-動作フロー戦略モデルで、LIBERO 10データセットから訓練され、わずか10億パラメータを含みます。

マルチモーダル融合

Safetensors

英語オープンソースライセンス:MIT #ロボット操作制御 #視覚言語動作フロー #LIBERO微調整

ダウンロード数 14

リリース時間 : 3/17/2025

モデル概要

FlowerVLAは革新的なアーキテクチャを採用し、Florence-2モデルの半分のパラメータでマルチモーダル視覚言語エンコーディングを実現し、Transformerベースの新しいフローマッチングアーキテクチャを使用し、約10億パラメータで効率的で汎用的なVLA戦略を提供します。

モデル特徴

効率的なマルチモーダルエンコーディング

Florence-2モデルの半分のパラメータでマルチモーダル視覚言語エンコーディングを実現

フローマッチングアーキテクチャ

Transformerベースの新しいフローマッチングアーキテクチャを採用

効率的なパラメータ規模

わずか10億パラメータを含み、効率的で汎用的なVLA戦略を提供

高性能

LIBERO 10チャレンジで高い成功率を達成

モデル能力

視覚言語動作モデル

ロボット操作タスク

マルチモーダルエンコーディング

フローマッチング

使用事例

ロボット操作

アイテムをバスケットに入れる

アルファベットスープとトマトケチャップをバスケットに入れる

成功率 0.9791666666666666

コンロを開けてモカポットを置く

キッチンシーン3_コンロを開けてモカポットを置く

成功率 0.9791666666666666

黒いボウルをキャビネットの下段引き出しに入れて閉める

キッチンシーン4_黒いボウルをキャビネットの下段引き出しに入れて閉める

成功率 1.0

🚀 FlowerVLA - LIBERO 10でファインチューニングされたビジョン・言語・行動フローモデル

このモデルは、LIBERO 10データセットで学習されたロボット操作向けの事前学習済みFlowerVLAモデルです。Flowerは、ロボット学習における効率的なビジョン・言語・行動フローポリシーで、たった10億個のパラメータしか含まれていません。

✨ 主な機能

FlowerVLAは、次のような革新的なアーキテクチャを持っています。

Florence-2の半分を使用して、マルチモーダルなビジョン・言語エンコーディングを行います。
新しいトランスフォーマーベースのフローマッチングアーキテクチャを採用しています。
たった約10億個のパラメータで、効率的かつ汎用的なVLAポリシーを提供します。

📦 モデルの性能

このチェックポイントには、LIBERO 10チャレンジ用の重みが含まれており、次のような結果を達成しています。

eval_lh/avg_seq_len 成功率 0.9440705180168152 eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_alphabet_soup_and_the_tomato_sauce_in_the_basket 成功率 0.9791666666666666 eval_lh/sr_LIVING_ROOM_SCENE2_put_both_the_cream_cheese_box_and_the_butter_in_the_basket 成功率 1.0 eval_lh/sr_KITCHEN_SCENE3_turn_on_the_stove_and_put_the_moka_pot_on_it 成功率 0.9791666666666666 eval_lh/sr_KITCHEN_SCENE4_put_the_black_bowl_in_the_bottom_drawer_of_the_cabinet_and_close_it 成功率 1.0 eval_lh/sr_LIVING_ROOM_SCENE5_put_the_white_mug_on_the_left_plate_and_put_the_yellow_and_white_mug_on_the_right_plate 成功率 0.9407051282051282 eval_lh/sr_STUDY_SCENE1_pick_up_the_book_and_place_it_in_the_back_compartment_of_the_caddy 成功率 1.0 eval_lh/sr_LIVING_ROOM_SCENE6_put_the_white_mug_on_the_plate_and_put_the_chocolate_pudding_to_the_right_of_the_plate 成功率 0.8990384615384616 eval_lh/sr_LIVING_ROOM_SCENE1_put_both_the_alphabet_soup_and_the_cream_cheese_box_in_the_basket 成功率 1.0 eval_lh/sr_KITCHEN_SCENE8_put_both_moka_pots_on_the_stove 成功率 0.7403846153846154 eval_lh/sr_KITCHEN_SCENE6_put_the_yellow_and_white_mug_in_the_microwave_and_close_it 成功率 0.9022435897435898

入出力仕様

入力

RGB静止カメラ: (B, T, 3, H, W) テンソル
RGBグリッパーカメラ: (B, T, 3, H, W) テンソル
言語指示: テキスト文字列

出力

行動空間: デルタEEF行動を表す (B, T, 7) テンソル

💻 使用例

基本的な使用法

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
10 = {"lang_text": "pick up the blue cube"}
action = model.step(obs, 10)

モデルの完全な実装については、GitHub todo をご確認ください。READMEの指示に従って、いずれかの環境でモデルをテストすることができます。