M

Minivla History2 Vq Libero90 Prismatic

Stanford-ILIADによって開発
MiniVLAは、より小型ながら優れた性能を持つ視覚言語動作モデルで、Prismatic VLMsトレーニングスクリプトと互換性があり、ロボット技術やマルチモーダルタスクに適しています。
ダウンロード数 22
リリース時間 : 12/11/2024

モデル概要

MiniVLAは視覚言語動作モデルで、画像テキストからテキストへの変換をサポートし、マルチモーダル処理能力を備えています。このモデルはPrismatic VLMsプロジェクトコードベースと互換性があり、完全なファインチューニングまたはLoRAによるパラメータ効率的なファインチューニングに適しています。

モデル特徴

Prismaticトレーニングスクリプト互換
ネイティブPyTorch FSDP完全ファインチューニングをサポートし、Prismatic VLMsプロジェクトコードベースと互換性があります。
パラメータ効率的なファインチューニング
LoRAによるパラメータ効率的なファインチューニングをサポートし、計算リソースが限られている場合に適しています。
マルチモーダル処理
画像とテキストの結合入力を処理でき、視覚言語動作のモデリングを実現します。

モデル能力

画像テキスト変換
マルチモーダル処理
視覚言語動作モデリング

使用事例

ロボット技術
視覚言語動作制御
画像とテキスト入力を通じてロボットに特定の動作を実行させます。
マルチモーダルインタラクション
画像キャプション生成
入力された画像に基づいて対応するテキスト記述を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase