オープンソースのFlowerVLAロボット操作モデルは、ロボット学習に特化して作られ、操作トレーニングを効率的にサポートします！

ホーム

Flower Calvin Abcd

mbreussによって開発

FlowerVLAはCALVIN ABCDデータセット向けに事前学習されたロボット操作モデルで、革新的な視覚-言語-動作フロー戦略を採用し、わずか10億パラメータでロボット学習に特化しています。

マルチモーダル融合

Safetensors

英語オープンソースライセンス:MIT #ロボット操作制御 #視覚-言語-動作フロー #10億パラメータ軽量

ダウンロード数 24

リリース時間 : 3/16/2025

モデル概要

FlowerVLAは効率的な視覚-言語-動作フロー戦略で、半量のFlorence-2を使用したマルチモーダル視覚-言語エンコーディングと、Transformerベースの新しいフローマッチングアーキテクチャを組み合わせ、効率的で汎用的な視覚-言語-動作戦略を実現します。

モデル特徴

効率的なマルチモーダルエンコーディング

半量のFlorence-2を使用したマルチモーダル視覚-言語エンコーディングにより、効率的な視覚-言語-動作戦略を実現。

革新的なフローマッチングアーキテクチャ

Transformerベースの新しいフローマッチングアーキテクチャを採用し、わずか約10億パラメータで効率的で汎用的な視覚-言語-動作戦略を実現。

高性能

CALVIN ABCDチャレンジで1位を獲得し、平均長4.72を達成。

モデル能力

視覚-言語-動作エンコーディング

ロボット操作

マルチモーダルタスク実行

使用事例

ロボット技術

物体のピックアップ

言語指示に基づいて特定の物体（青い立方体など）を拾い上げる。

テストで99.1%の成功率を達成。

🚀 FlowerVLA - ロボット操作用のビジョン・言語・行動フローモデル（CALVIN ABCD用）

FlowerVLAは、CALVIN ABCDデータセットで学習された、ロボット操作用の事前学習済みモデルです。Flowerは、たった10億のパラメータしか持たない、ロボット学習用の効率的なビジョン・言語・行動フローポリシーです。

✨ 主な機能

FlowerVLAは、次のような新しいアーキテクチャを持っています。

Florence-2の半分を使用して、マルチモーダルなビジョン・言語エンコーディングを行います。
新しいトランスフォーマーベースのフローマッチングアーキテクチャを採用しています。
たった約10億のパラメータで、効率的で汎用性の高いVLAポリシーを提供します。

📚 詳細ドキュメント

モデルの性能

このチェックポイントには、CALVIN ABCDチャレンジ用の重みが含まれており、現在は以下の結果で1位を占めています。

訓練→テスト	手法	1	2	3	4	5	平均長
{dataset_name}	FlowerVLA	99.1%	97.8%	95.2%	92.4%	87.8%	4.72

入出力仕様

入力

RGB静止カメラ: (B, T, 3, H, W) テンソル
RGBグリッパーカメラ: (B, T, 3, H, W) テンソル
言語指示: テキスト文字列

出力

行動空間: デルタEEF行動を表す (B, T, 7) テンソル

💻 使用例

基本的な使用法

GitHubでの完全なモデル実装を確認してください todo 。READMEの指示に従って、いずれかの環境でモデルをテストしてください。

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
goal = {"lang_text": "pick up the blue cube"}
action = model.step(obs, goal)

🔧 技術詳細

設定

オプティマイザ: AdamW
学習率: 2e-5
重み減衰: 0.05

@inproceedings{ reuss2025flower, # Add citation when available }

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご