オープンソースのFlowerVLAビジュアル言語アクションフローモデル - 小さなパラメータでの汎用ロボット操作戦略の実現

ホーム

Flower Calvin D

mbreussによって開発

FlowerVLAはCALVIN Dデータセット向けに事前学習された視覚-言語-動作フローモデルで、効率的なフローマッチングアーキテクチャを採用し、約10億パラメータで汎用ロボット操作戦略を実現します。

マルチモーダル融合

Safetensors

英語オープンソースライセンス:MIT #ロボット操作制御 #視覚言語動作フロー #効率的なパラメータアーキテクチャ

ダウンロード数 16

リリース時間 : 3/16/2025

モデル概要

FlowerVLAはロボット操作タスク向けに設計された革新的な視覚-言語-動作フロー戦略モデルで、視覚入力と言語指令に基づいて対応する動作出力を生成できます。

モデル特徴

効率的なアーキテクチャ

Transformerベースの新しいフローマッチングアーキテクチャを採用し、約10億パラメータで効率的かつ汎用的なVLA戦略を実現

マルチモーダルエンコーディング

Florence-2半数モジュールによるマルチモーダル視覚言語エンコーディングで、視覚と言語情報を効果的に統合

高性能

CALVIN Dチャレンジで1位を獲得し、優れた性能を発揮

モデル能力

視覚-言語-動作マッピング

ロボット操作制御

マルチモーダル情報処理

使用事例

ロボット技術

物品把持

言語指令に基づいて特定物品を識別し把持

CALVIN Dデータセットで高い成功率を達成

タスクシーケンス実行

複雑な多段階操作タスクを実行

長いシーケンスタスクを完了可能、平均長さ4.36

🚀 FlowerVLA - CALVIN D用のビジョン・言語・行動フローモデル

これは、CALVIN Dデータセットで学習された、ロボット操作向けの事前学習済みFlowerVLAモデルです。Flowerは、ロボット学習用の効率的なビジョン・言語・行動フローポリシーで、たった10億のパラメータしか含まれていません。

🚀 クイックスタート

FlowerVLAは、CALVIN Dデータセットを使用してロボット操作に特化して事前学習されたモデルです。以下の手順でモデルを使用できます。

✨ 主な機能

FlowerVLAは、次のような革新的なアーキテクチャを持っています。

Florence-2の半分を使用して、マルチモーダルなビジョン・言語エンコーディングを行います。
新しいトランスフォーマーベースのフローマッチングアーキテクチャを採用しています。
たった約10億のパラメータで、効率的で汎用性の高いVLAポリシーを提供します。

📦 インストール

このセクションではインストールに関する具体的な手順が記載されていませんので、スキップします。

💻 使用例

基本的な使用法

obs = {
    "rgb_obs": {
        "rgb_static": static_image,
        "rgb_gripper": gripper_image
    }
}
goal = {"lang_text": "pick up the blue cube"}
action = model.step(obs, goal)

高度な使用法

このセクションでは高度な使用法に関する具体的なコードが記載されていませんので、スキップします。

📚 ドキュメント

モデルの性能

このチェックポイントには、CALVIN Dチャレンジ用の重みが含まれており、現在以下の結果で1位を占めています。

学習→テスト	手法	1	2	3	4	5	平均長
{dataset_name}	FlowerVLA	98.4%	94.0%	87.9%	81.7%	74.1%	4.36

入力/出力仕様

入力

RGB静止カメラ: (B, T, 3, H, W) テンソル
RGBグリッパーカメラ: (B, T, 3, H, W) テンソル
言語指示: テキスト文字列

出力

行動空間: デルタEEF行動を表す (B, T, 7) テンソル

使い方

Github todo で完全なモデル実装を確認し、READMEの指示に従って、いずれかの環境でモデルをテストしてください。

🔧 技術詳細

設定

オプティマイザー: AdamW
学習率: 2e-5
重み減衰: 0.05

@inproceedings{ reuss2025flower, # Add citation when available }

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご