O

Octo Base 1.5

rail-berkeleyによって開発
Octoはロボット技術のためのマルチモーダル基本モデルで、視覚と言語入力を通じてロボットの動作を予測できます。
ダウンロード数 87
リリース時間 : 5/21/2024

モデル概要

Octo基本モデルは、視覚と言語入力を組み合わせたTransformerアーキテクチャで、ロボット制御タスク向けに設計されています。メインカメラと手首カメラからの画像入力を処理し、言語指令と組み合わせて将来の動作を予測します。

モデル特徴

マルチモーダル入力処理
視覚(デュアルカメラ)と言語入力を同時に処理可能
拡散戦略予測
拡散戦略を用いて将来4ステップの7次元動作を予測
柔軟な入力サポート
推論時に任意の観測とタスクキーのサブセットを渡すことが可能
大規模訓練データ
Open X-Embodimentデータセットの25の異なるロボットデータセットで訓練

モデル能力

視覚情報処理
言語指令理解
ロボット動作予測
マルチモーダルデータ融合

使用事例

ロボット制御
視覚ベースの物体操作
カメラ入力と言語指令に基づき、把持、配置などの操作を実行
タスク指向型動作シーケンス生成
言語記述に基づき特定タスクを完了するための動作シーケンスを生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase