O

Octo Small 1.5

rail-berkeleyによって開発
Octo小型版はロボット制御のための拡散戦略モデルで、Transformerアーキテクチャを採用し、視覚入力と言語命令に基づいてロボットの動作を予測できます。
ダウンロード数 250
リリース時間 : 5/21/2024

モデル概要

このモデルは2700万パラメータのTransformerアーキテクチャで、ロボット制御タスク向けに設計されています。視覚入力(メインカメラと手首カメラの画像)と言語命令を処理し、未来4ステップの7次元動作を予測します。モデルは拡散戦略で訓練され、ウィンドウサイズは2です。

モデル特徴

マルチモーダル入力処理
視覚入力(カメラ画像)と言語命令を同時に処理可能
拡散戦略
拡散戦略で訓練され、未来4ステップの7次元動作を予測可能
軽量アーキテクチャ
2700万パラメータのTransformerアーキテクチャで、リアルタイムロボット制御に適している
広範なデータセット訓練
Open X-Embodiment混合データセット(25の異なるロボットデータセットを含む)で訓練

モデル能力

視覚-言語マルチモーダル処理
ロボット動作予測
リアルタイム制御
マルチタスク学習

使用事例

ロボット制御
視覚ベースの物体把持
カメラ入力と言語命令に基づき、特定の物体を把持するようロボットを制御
卓上操作タスク
押す、引く、回転させるなど、卓上環境での様々な操作タスクを実行
産業自動化
組立ライン操作
産業環境で精密な組立タスクを実行
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase