R

Rdt 1b

robotics-diffusion-transformerによって開発
100万以上のマルチロボット操作データで事前学習された10億パラメータの模倣学習拡散Transformerモデルで、マルチビュー視覚言語動作予測をサポート
ダウンロード数 2,644
リリース時間 : 8/27/2024

モデル概要

このモデルは言語指令とマルチビューRGB画像に基づいて未来64個のロボット動作を予測でき、様々な現代的な移動ロボットアームシステムと互換性があります

モデル特徴

マルチモーダル入力サポート
言語指令と最大3つのビューのRGB画像入力を同時処理
汎用ロボット互換性
シングルアーム/デュアルアーム、関節/エンドエフェクタ空間、位置/速度制御など様々なロボットプラットフォームをサポート
大規模事前学習
100万以上のロボット操作データと46の公開データセットで学習
長系列動作予測
未来64個の連続したロボット動作を予測可能

モデル能力

視覚言語理解
ロボット動作系列予測
マルチビュー画像処理
クロスプラットフォームロボット制御

使用事例

産業自動化
組立ライン操作
言語指令に基づいて部品把持と組立タスクを完了
精密な連続動作制御を実現
サービスロボット
家庭用品整理
音声指令に基づいて家庭用品を識別・整理
複雑なマルチステップ操作系列を完了
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase