nora-longオープンソース視覚-言語-動作モデル - 言語指示と画像によるロボット動作生成

ホーム

Nora Long

declare-labによって開発

オープンXエンボディデータセットでトレーニングされた視覚-言語-動作モデルで、言語命令とカメラ画像を入力としてロボット動作を生成

マルチモーダル融合

Transformers

#ロボット動作生成 #視覚-言語-動作モデル #5ステップ動作スパン

ダウンロード数 673

リリース時間 : 4/29/2025

モデル概要

ノラ長距離版は通義千問2.5 VL-3Bモデルをファインチューニングしたオープンソースの視覚-言語-動作モデルで、ロボット操作タスク向けに設計されており、5ステップ動作スパンで事前トレーニングされ、LIBEROシミュレーション環境で優れた性能を発揮

モデル特徴

長距離動作予測

5ステップ動作スパンで事前トレーニングされており、長距離計画が必要なタスクシナリオに適している

マルチモーダル入力

言語命令と視覚入力を同時に処理し、より正確な動作制御を実現

オープンソースでファインチューニング可能

完全なトレーニングコードとモデルチェックポイントを提供し、ユーザーカスタマイズのファインチューニングをサポート

モデル能力

視覚-言語理解

ロボット動作予測

マルチモーダルタスク実行

長距離動作計画

使用事例

ロボット制御

ロボットアーム操作

自然言語命令と視覚入力に基づいてロボットアームの把持、配置などの操作を制御

WidowXロボットタスクとLIBEROシミュレーション環境で有効性を確認

自動化組立

視覚と言語ガイダンスを通じて複雑な組立タスクを完了

🚀 Nora-Long

Nora-Longは、Open X-Embodimentデータセットのロボット操作エピソードを使用して学習されたオープンなビジョン・言語・行動モデルです。このモデルは、言語指示とカメラ画像を入力として受け取り、ロボットの行動を生成します。Nora-Longは、Qwen 2.5 VL - 3Bから直接学習されています。すべてのNoraチェックポイントと学習コードベースは、MITライセンスの下で公開されています。

Noraとは異なり、Nora-Longはアクションホライゾンが5で事前学習されています。Nora-Longを使用すると、WidowXロボットタスクでは性能が低下することが観察されますが、liberoシミュレーションでは優れた性能を発揮します。ぜひこのモデルをファインチューニングしてみてください！

✨ 主な機能

Nora-Longは、言語指示とカメラ画像を入力とし、ロボットの行動を生成するビジョン・言語・行動モデルです。このモデルはQwen 2.5 VL - 3Bから直接学習され、アクションホライゾンが5で事前学習されています。

📚 ドキュメント

モデルの説明

モデルの種類：ビジョン・言語・行動（言語、画像 => ロボットの行動）
言語 (NLP)：英語
ライセンス：MIT
ファインチューニング元のモデル：Qwen 2.5 VL-3B

モデルのソース

リポジトリ：https://github.com/declare-lab/nora
論文：https://www.arxiv.org/abs/2504.19854
デモ：https://declare-lab.github.io/nora

💻 使用例

基本的な使用法

Noraは、言語指示とロボット作業空間のカメラ画像を入力として受け取り、（正規化された）ロボットの行動を予測します。この行動は、(x, y, z, roll, pitch, yaw, gripper)の形式の7自由度のエンドエフェクタの変位から構成されます。実際のロボットプラットフォームで実行するには、行動を、ロボットごと、データセットごとに計算された統計に基づいて非正規化する必要があります。 Noraを実行する方法についての説明は、https://github.com/declare-lab/nora で入手できます。