M

Minivla Vq Bridge Prismatic

Stanford-ILIADによって開発
MiniVLAは、より小型でありながら高性能な視覚言語アクションモデルで、Prismatic VLMsプロジェクトコードベースと互換性があります。
ダウンロード数 22
リリース時間 : 12/12/2024

モデル概要

MiniVLAは、視覚言語アクションタスクに特化したマルチモーダル事前学習モデルで、画像テキストからテキストへの変換を処理できます。

モデル特徴

Prismatic VLMs互換
オリジナルのPrismatic VLMsプロジェクトコードベースと互換性があり、ネイティブPyTorchを使用した完全なファインチューニングが容易です。
パラメータ効率的なファインチューニングサポート
LoRAを介したパラメータ効率的なファインチューニングをサポートし、計算リソースが限られたシナリオに適しています。
マルチモーダル能力
視覚と言語処理能力を組み合わせ、複雑なマルチモーダルタスクに適用可能です。

モデル能力

画像テキスト変換
マルチモーダル理解
視覚言語アクション処理

使用事例

ロボット技術
視覚言語アクション制御
画像とテキスト入力によるロボットアクション制御
マルチモーダルアプリケーション
画像キャプション生成
画像に基づくテキスト記述の生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase