M

Minivla Libero90 Prismatic

Stanford-ILIADによって開発
MiniVLAは10億パラメータ規模の視覚言語モデルで、プリズム視覚言語モデルプロジェクトのコードベースと互換性があり、ロボット技術やマルチモーダルタスクに適しています。
ダウンロード数 127
リリース時間 : 12/11/2024

モデル概要

MiniVLAは効率的な視覚言語モデルで、画像テキストからテキストへの変換をサポートし、マルチモーダルタスクやロボット技術アプリケーションに適しています。このモデルはプリズム視覚言語モデルプロジェクトのコードベースと互換性があり、完全なファインチューニングが容易です。

モデル特徴

プリズム互換
プリズム視覚言語モデルプロジェクトのコードベースと互換性があり、ネイティブPyTorchのフルシャードデータ並列(FSDP)を使用した完全なファインチューニングが容易です。
効率的なマルチモーダル
画像とテキストのマルチモーダル処理をサポートし、複雑な視覚言語タスクに適しています。
パラメータ効率
10億パラメータ規模で、性能を維持しながら計算リソースの需要を削減します。

モデル能力

画像テキスト変換
マルチモーダル処理
ロボット視覚言語タスク

使用事例

ロボット技術
視覚言語ナビゲーション
ロボットが視覚入力を理解し、対応するテキスト指令を生成するのを支援します。
マルチモーダルインタラクション
ロボットと人間が視覚と言語を通じてインタラクションするのをサポートします。
マルチモーダルアプリケーション
画像説明生成
入力画像に基づいて詳細なテキスト説明を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase