Noraオープンソース視覚 - 言語 - 動作モデル - 指令に基づいて画像からロボットの動作を無料で生成

ホーム

Nora

declare-labによって開発

Noraはオープンソースの視覚 - 言語 - 動作モデルで、Qwen 2.5 VL - 3Bをベースに訓練され、言語指令とカメラ画像に基づいてロボットの動作を生成できます。

マルチモーダル融合

Transformers

#ロボット動作生成 #視覚言語モデル #ゼロサンプル指令追跡

ダウンロード数 7,063

リリース時間 : 4/28/2025

モデル概要

Noraは視覚 - 言語 - 動作モデルで、言語指令とカメラ画像を入力として、7自由度のエンドエフェクタの増分で構成されるロボットの動作を予測します。

モデル特徴

視覚 - 言語 - 動作統合

視覚入力（カメラ画像）と言語指令を同時に処理し、ロボットの動作を出力できます。

オープンソース利用可能

すべてのチェックポイントと訓練コードベースはMITライセンスの下で公開されています。

大規模データに基づく訓練

Open X - Embodimentデータセットのロボット操作フラグメントを使用して訓練されています。

7自由度動作予測

位置と姿勢を含む7自由度のロボット動作を予測できます。

モデル能力

視覚 - 言語理解

ロボット動作予測

指令追従

ゼロサンプル学習

使用事例

ロボット制御

指令に基づくロボット操作

自然言語指令に基づいてロボットに特定のタスクを実行させます。

ロボットが実行するのに適した7自由度の動作を生成できます。

ゼロサンプル指令追跡

見たことのない指令とシーンでタスクを実行します。

🚀 Nora

Noraは、Open X-Embodimentデータセットのロボット操作エピソードを使用して学習されたオープンなビジョン・言語・行動モデルです。このモデルは、言語命令とカメラ画像を入力として受け取り、ロボットの行動を生成します。Noraは、Qwen 2.5 VL-3Bから直接学習されています。すべてのNoraのチェックポイントと学習コードベースは、MITライセンスの下で公開されています。

🚀 クイックスタート

Noraは、言語命令とロボット作業空間のカメラ画像を入力として受け取り、(正規化された)ロボットの行動を予測します。この行動は、(x, y, z, roll, pitch, yaw, gripper)の形式の7自由度のエンドエフェクタの変位で構成されています。実際のロボットプラットフォームで実行するには、行動を各ロボット、各データセットごとに計算された統計情報に基づいて非正規化する必要があります。

✨ 主な機能

Noraは、言語命令とカメラ画像を入力として受け取り、ロボットの行動を生成することができます。これにより、ロボットが自然言語で与えられたタスクを実行することが可能になります。

📦 インストール

Noraを推論用にロードして実行するには、最小限の依存関係で動作する軽量インターフェースを提供しています。

git clone https://github.com/declare-lab/nora
cd inference
pip install -r requirements.txt

💻 使用例

基本的な使用法

# Load VLA
from inference.nora import Nora
nora = Nora(device='cuda')

# Get Inputs
image: Image.Image = camera(...)
instruction: str = <INSTRUCTION>
# Predict Action (7-DoF; un-normalize for BridgeData V2)
actions = nora.inference(
    image=image,  # Dummy image
    instruction=instruction,
    unnorm_key='bridge_orig'  # Optional, specify if needed
)
# Execute...
robot.act(action, ...)