CogACT-Large開源模型 - 為機器人操作定製，實現高級視覺語言動作應用

首頁

Cogact Large

由CogACT開發

CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構，專為機器人操作設計。

多模態融合

Transformers

英語開源協議:MIT #視覺語言動作模型 #機器人操作控制 #多模態擴散模型

下載量 122

發布時間 : 11/30/2024

模型概述

CogACT是一種組件化的視覺語言動作模型，通過專用動作模塊以視覺語言模型輸出為條件，預測機器人動作。支持零樣本應用於預訓練數據集中出現的機器人配置，也可通過少量樣本微調適應新任務。

模型特點

組件化架構

採用分離的視覺、語言和動作模塊，而非簡單改造VLM進行動作預測

自適應動作集成

支持動作反標準化和集成，適應不同數據集統計特性

零樣本遷移能力

可直接應用於Open-X預訓練混合數據集中的機器人配置

少量樣本微調

通過極少量演示樣本即可適應新任務和機器人配置

模型能力

視覺語言理解

機器人動作預測

多模態任務處理

零樣本遷移學習

使用案例

機器人操作

物體抓取與放置

根據語言指令和視覺輸入預測抓取和放置物體的動作序列

可生成16步7自由度的標準化機器人動作

任務導向操作

執行如'將海綿移到蘋果附近'等具體任務指令

通過擴散模型生成精確的動作序列

🚀 CogACT-Large

CogACT是一種源自視覺語言模型（VLM）的全新高級視覺語言動作（VLA）架構。與以往通過簡單動作量化直接將VLM用於動作預測的工作不同，我們提出了一種組件化的VLA架構，該架構有一個基於VLM輸出的專用動作模塊。CogACT-Large採用了DiT-L模型作為動作模塊。

我們所有的代碼、預訓練模型權重均遵循MIT許可證。

更多詳情請參考我們的項目頁面和論文。

📚 詳細文檔

模型概述

屬性	詳情
開發者	由來自微軟亞洲研究院的研究人員組成的CogACT團隊
模型類型	視覺 - 語言 - 動作（語言、圖像 => 機器人動作）
語言（NLP）	英文
許可證	MIT
模型組件	視覺骨幹網絡：DINOv2 ViT-L/14和SigLIP ViT-So400M/14；語言模型：Llama-2；動作模型：DiT-Large
預訓練數據集	Open X-Embodiment的一個子集
代碼倉庫	https://github.com/microsoft/CogACT
論文	CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation
項目頁面	https://cogact.github.io/

用途

CogACT以語言指令和單視角RGB圖像作為輸入，預測接下來的16個歸一化機器人動作（由形式為 x, y, z, roll, pitch, yaw, gripper 的7自由度末端執行器增量組成）。這些動作應通過我們的 Adaptive Action Ensemble（可選）進行反歸一化和集成。反歸一化和集成依賴於數據集統計信息。

CogACT模型可以零樣本地用於控制在Open-X預訓練混合數據中出現過的機器人設置。它們也可以使用極少的演示數據針對新任務和機器人設置進行微調。更多信息請參閱我們的代碼倉庫。

💻 使用示例

基礎用法

# 請克隆我們的倉庫並安裝依賴項
# 安裝最小依賴項 (`torch`, `transformers`, `timm`, `tokenizers`, ...)

from PIL import Image
from vla import load_vla
import torch

model = load_vla(
      'CogACT/CogACT-Large',
      load_for_training=False,
      action_model_type='DiT-L',
      future_action_window_size=15,
    )                                 
# 在fp32模式下約佔用30G內存

# （可選）使用 "model.vlm = model.vlm.to(torch.bfloat16)" 以bf16模式加載vlm

model.to('cuda:0').eval()

image: Image.Image = <input_your_image>
prompt = "move sponge near apple"           # 輸入你的提示

# 預測動作（7自由度；針對RT-1谷歌機器人數據進行反歸一化，即fractal20220817_data）
actions, _ = model.predict_action(
          image,
          prompt,
          unnorm_key='fractal20220817_data', # 輸入你的數據集反歸一化鍵
          cfg_scale = 1.5,                   # cfg在1.5到7之間效果也很好
          use_ddim = True,                   # 使用DDIM採樣
          num_ddim_steps = 10,               # DDIM採樣的步數
        )

# 結果為16步的7自由度動作，形狀為 [16, 7]

📄 許可證

本項目遵循MIT許可證。

📖 引用

@article{li2024cogact,
  title={CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation},
  author={Li, Qixiu and Liang, Yaobo and Wang, Zeyu and Luo, Lin and Chen, Xi and Liao, Mozheng and Wei, Fangyun and Deng, Yu and Xu, Sicheng and Zhang, Yizhong and others},
  journal={arXiv preprint arXiv:2411.19650},
  year={2024}
}