開源FlowerVLA機器人操作模型，為機器人學習量身定製，高效助力操作訓練！

首頁

Flower Calvin Abcd

由mbreuss開發

FlowerVLA是一個針對CALVIN ABCD數據集預訓練的機器人操作模型，採用創新的視覺-語言-動作流策略，僅包含10億參數，專為機器人學習設計。

多模態融合

Safetensors

英語開源協議:MIT #機器人操作控制 #視覺-語言-動作流 #10億參數輕量級

下載量 24

發布時間 : 3/16/2025

模型概述

FlowerVLA是一種高效的視覺-語言-動作流策略，採用半量Florence-2進行多模態視覺-語言編碼，結合基於Transformer的新型流匹配架構，實現高效、通用的視覺-語言-動作策略。

模型特點

高效的多模態編碼

使用半量Florence-2進行多模態視覺-語言編碼，實現高效的視覺-語言-動作策略。

創新的流匹配架構

採用基於Transformer的新型流匹配架構，僅約10億參數即可實現高效、通用的視覺-語言-動作策略。

高性能

在CALVIN ABCD挑戰賽中排名第一，平均長度達到4.72。

模型能力

視覺-語言-動作編碼

機器人操作

多模態任務執行

使用案例

機器人技術

拾取物體

根據語言指令拾取特定物體，如藍色立方體。

在測試中達到99.1%的成功率。

🚀 FlowerVLA - 用於CALVIN ABCD的視覺-語言-動作流模型

FlowerVLA是一個預訓練模型，專為基於CALVIN ABCD數據集的機器人操作任務而設計。Flower是一種高效的視覺 - 語言 - 動作流策略，僅含10億參數，適用於機器人學習。

🚀 快速開始

你可以在GitHub上查看我們完整的模型實現 todo，並按照README中的說明在其中一個環境中測試該模型。

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
goal = {"lang_text": "pick up the blue cube"}
action = model.step(obs, goal)

✨ 主要特性

創新架構：FlowerVLA採用了新穎的架構，使用了Florence - 2一半的結構進行多模態視覺 - 語言編碼。
高效策略：採用了基於Transformer的流匹配架構，僅用約10億參數就提供了高效、通用的VLA策略。

📚 詳細文檔

模型描述

FlowerVLA是一種新穎的架構，具有以下特點：

使用Florence - 2的一半進行多模態視覺 - 語言編碼。
採用了基於Transformer的新型流匹配架構。
僅用約10億參數就提供了高效、通用的VLA策略。

模型性能

此檢查點包含用於CALVIN ABCD挑戰的權重，目前排名第一，結果如下：

訓練→測試	方法	1	2	3	4	5	平均長度
{dataset_name}	FlowerVLA	99.1%	97.8%	95.2%	92.4%	87.8%	4.72

輸入/輸出規格

輸入

RGB靜態相機：(B, T, 3, H, W) 張量
RGB夾爪相機：(B, T, 3, H, W) 張量
語言指令：文本字符串

輸出

動作空間：(B, T, 7) 張量，表示EEF的增量動作

💻 使用示例

基礎用法

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
goal = {"lang_text": "pick up the blue cube"}
action = model.step(obs, goal)