オープンソースのテイア（theia - base - patch16 - 224 - cddsv）モデル - ロボット学習を支援する視覚表現の神器

ホーム

Theia Base Patch16 224 Cddsv

theaiinstituteによって開発

テイアはロボット学習向けの視覚基盤モデルで、複数の視覚基盤モデルを蒸留することで豊富な視覚表現能力を獲得しています

3Dビジョン

Transformers

オープンソースライセンス:その他 #ロボットビジョン #マルチタスク蒸留 #軽量バックボーン

ダウンロード数 5,404

リリース時間 : 9/30/2024

モデル概要

テイアは複数の視覚基盤モデルを蒸留したロボット学習専用の視覚モデルで、下流のロボット学習タスクの性能を向上させます。実験では、より少ないトレーニングデータとより小さいモデルサイズで既存モデルを上回ることが証明されています。

モデル特徴

マルチモデル蒸留

CLIP、Depth Anything、DINOv2、Segment Anything、ViTの5つの視覚基盤モデルの知識を同時に蒸留

効率的な学習

より少ないトレーニングデータと小さいモデルサイズで教師モデルを上回る性能

多様な視覚表現

豊富な視覚知識をエンコードし、様々なロボット学習タスクに適用可能

モデル能力

視覚特徴抽出

深度推定

画像セグメンテーション

視覚表現学習

使用事例

ロボット学習

ロボット視覚ナビゲーション

豊富な視覚表現を活用して環境理解とナビゲーションを支援

少量のトレーニングデータで従来モデルを上回る性能を実現

物体認識と操作

複数の視覚知識を組み合わせた物体認識と操作タスク

🚀 ティエア (Theia)

ティエア (Theia) は、ロボット学習用のビジョン基礎モデルです。様々なビジョンタスクで学習された複数の既存のビジョン基礎モデルを蒸留することで、豊富な視覚表現を持ち、下流のロボット学習を強化します。

🚀 クイックスタート

AIインスティテュートによって開発されたティエアは、ロボット学習の分野で革新的なアプローチを提供します。その詳細な説明や実験結果は、論文Theia: Distilling Diverse Vision Foundation Models for Robot Learningに記載されています。デモビデオはプロジェクトページで確認できます。

✨ 主な機能

ティエアは、多様なビジョン基礎モデルの知識を集約し、豊富な視覚表現を提供することで、少ない学習データと小さいモデルサイズでも既存のモデルを上回る性能を発揮します。

📚 ドキュメント

モデル詳細

theia-tiny-patch16-224-cddsv モデルは、DeiT-Tiny をバックボーンとして使用し、CLIP、Depth Anything、DINOv2、Segment Anything および ViT を同時に蒸留します。使用方法の詳細については、Theiaリポジトリをご覧ください。

引用

もしあなたの研究でティエアを使用する場合は、以下のBibTeXエントリを使用してください。

@article{shang2024theia,
  author    = {Shang, Jinghuan and Schmeckpeper, Karl and May, Brandon B. and Minniti, Maria Vittoria and Kelestemur, Tarik and Watkins, David and Herlant, Laura},
  title     = {Theia: Distilling Diverse Vision Foundation Models for Robot Learning},
  journal   = {arXiv},
  year      = {2024},
}

使用方法

ティエアとともに公開された事前学習済みモデルの重みとコードは、AIインスティテュートライセンスの下で使用できます。以下にライセンス全文を再掲します。

Copyright (c) 2024 Boston Dynamics AI Institute LLC

Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:
1. Redistributions of source code must retain the copyright notice included
with the software, this list of conditions and the following disclaimer.
2. Redistributions in binary form must reproduce the copyright notice, this
list of conditions and the following disclaimer in the documentation and/or
other materials provided with the distribution.
3. Modified versions of the software must be conspicuously marked as such.
4. The software may only be used for non-commercial research purposes.
For profit enterprises may use the software, subject to this limitation.

THIS SOFTWARE IS PROVIDED BY THE AI INSTITUTE AND CONTRIBUTORS "AS IS" AND
ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, NON-
INFRINGEMENT,TITLE, MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
DISCLAIMED. IN NO EVENT SHALL THE AI INSTITUTE OR CONTRIBUTORS BE LIABLE FOR
ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, PUNITIVE OR CONSEQUENTIAL
DAMAGES (INCLUDING, BUT NOT LIMITED TO, DAMAGES ARISING OUT OF CLAIMS OF
INTELLECTUAL PROPERTY RIGHTS INFRINGEMENT; PROCUREMENT OF SUBSTITUTE GOODS OR
SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.