Octo Small 1.5
Octo小型版はロボット制御のための拡散戦略モデルで、Transformerアーキテクチャを採用し、視覚入力と言語命令に基づいてロボットの動作を予測できます。
ダウンロード数 250
リリース時間 : 5/21/2024
モデル概要
このモデルは2700万パラメータのTransformerアーキテクチャで、ロボット制御タスク向けに設計されています。視覚入力(メインカメラと手首カメラの画像)と言語命令を処理し、未来4ステップの7次元動作を予測します。モデルは拡散戦略で訓練され、ウィンドウサイズは2です。
モデル特徴
マルチモーダル入力処理
視覚入力(カメラ画像)と言語命令を同時に処理可能
拡散戦略
拡散戦略で訓練され、未来4ステップの7次元動作を予測可能
軽量アーキテクチャ
2700万パラメータのTransformerアーキテクチャで、リアルタイムロボット制御に適している
広範なデータセット訓練
Open X-Embodiment混合データセット(25の異なるロボットデータセットを含む)で訓練
モデル能力
視覚-言語マルチモーダル処理
ロボット動作予測
リアルタイム制御
マルチタスク学習
使用事例
ロボット制御
視覚ベースの物体把持
カメラ入力と言語命令に基づき、特定の物体を把持するようロボットを制御
卓上操作タスク
押す、引く、回転させるなど、卓上環境での様々な操作タスクを実行
産業自動化
組立ライン操作
産業環境で精密な組立タスクを実行
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98