CogACT-Small開源模型 - 專為機器人操作設計的高級視覺語言動作架構

首頁

Cogact Small

由CogACT開發

CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構，專為機器人操作設計。

多模態融合

Transformers

英語開源協議:MIT #視覺語言動作模型 #機器人操作控制 #多模態擴散模型

下載量 405

發布時間 : 11/30/2024

模型概述

CogACT是一種組件化的視覺語言動作模型，通過專用動作模塊將視覺語言模型的輸出轉化為機器人動作預測。

模型特點

組件化架構

採用分離的視覺、語言和動作模塊，而非直接改造VLM進行動作預測

多模態融合

整合視覺和語言輸入來預測機器人動作

零樣本遷移能力

可零樣本應用於Open-X預訓練混合數據集中的機器人配置

快速適應新任務

通過少量演示樣本即可對新任務和機器人配置進行微調

模型能力

視覺語言理解

機器人動作預測

多模態信息處理

零樣本任務執行

使用案例

機器人操作

物體抓取與放置

根據語言指令和視覺輸入預測抓取和放置物體的動作序列

可生成16步7自由度的標準化機器人動作

任務導向操作

執行如'將海綿移到蘋果附近'等具體任務指令

通過擴散模型預測精確的動作軌跡

🚀 CogACT-Small

CogACT是一種源自視覺語言模型（VLM）的全新高級視覺語言行動（VLA）架構。與以往通過簡單的動作量化直接將VLM用於動作預測的工作不同，我們提出了一種組件化的VLA架構，該架構擁有一個基於VLM輸出的專門動作模塊。CogACT-Small採用了DiT-S模型作為動作模塊。

我們所有的代碼、預訓練模型權重均遵循MIT許可證。

更多詳細信息請參考我們的項目頁面和論文。

📚 詳細文檔

模型概述

開發者：CogACT團隊，成員來自微軟亞洲研究院。
模型類型：視覺 - 語言 - 動作（語言、圖像 => 機器人動作）
語言（NLP）：英語
許可證：MIT
模型組件：
- 視覺骨幹網絡：DINOv2 ViT - L/14和SigLIP ViT - So400M/14
- 語言模型：Llama - 2
- 動作模型：DiT - Small
預訓練數據集：Open X - Embodiment的一個子集
代碼倉庫：https://github.com/microsoft/CogACT
論文：CogACT: A Foundational Vision - Language - Action Model for Synergizing Cognition and Action in Robotic Manipulation
項目頁面：https://cogact.github.io/

模型用途

CogACT以語言指令和單視角RGB圖像作為輸入，預測接下來的16個歸一化機器人動作（由7自由度末端執行器增量組成，形式為x, y, z, roll, pitch, yaw, gripper）。這些動作應通過我們的Adaptive Action Ensemble（可選）進行反歸一化和集成。反歸一化和集成依賴於數據集統計信息。

CogACT模型可以進行零樣本學習，以控制在Open - X預訓練混合數據中出現過的機器人設置。它們也可以通過極少量的演示樣本針對新任務和機器人設置進行微調。更多信息請參閱我們的代碼倉庫。

推理示例

以下是一個簡單的推理示例：

# 請克隆並安裝我們倉庫中的依賴項
# 安裝最小依賴項 (`torch`, `transformers`, `timm`, `tokenizers`, ...)

from PIL import Image
from vla import load_vla
import torch

model = load_vla(
      'CogACT/CogACT-Small',
      load_for_training=False,
      action_model_type='DiT-S',
      future_action_window_size=15,
    )                                 
# 在fp32模式下約佔用30G內存; 

# (可選) 使用 "model.vlm = model.vlm.to(torch.bfloat16)" 以bf16模式加載vlm

model.to('cuda:0').eval()

image: Image.Image = <input_your_image>
prompt = "move sponge near apple"           # 輸入你的提示

# 預測動作 (7自由度; 對RT-1谷歌機器人數據進行反歸一化，即fractal20220817_data)
actions, _ = model.predict_action(
          image,
          prompt,
          unnorm_key='fractal20220817_data', # 輸入你的數據集反歸一化鍵
          cfg_scale = 1.5,                   # cfg在1.5到7之間效果也很好
          use_ddim = True,                   # 使用DDIM採樣
          num_ddim_steps = 10,               # DDIM採樣的步數
        )

# 結果為16步的7自由度動作，形狀為 [16, 7]

引用信息

@article{li2024cogact,
  title={CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation},
  author={Li, Qixiu and Liang, Yaobo and Wang, Zeyu and Luo, Lin and Chen, Xi and Liao, Mozheng and Wei, Fangyun and Deng, Yu and Xu, Sicheng and Zhang, Yizhong and others},
  journal={arXiv preprint arXiv:2411.19650},
  year={2024}
}