O

Openvla 7b Prismatic

openvlaによって開発
OpenVLA 7Bはオープンソースの視覚言語動作モデルで、Prismatic VLMsトレーニングスクリプト形式と互換性があり、75億パラメータの完全な微調整をサポートします。
ダウンロード数 156
リリース時間 : 7/8/2024

モデル概要

OpenVLA 7Bはマルチモーダル事前学習モデルで、視覚言語動作タスクに特化しており、画像テキストからテキストへの変換を処理できます。

モデル特徴

Prismaticトレーニングスクリプト互換
Prismatic VLMsトレーニングスクリプトを使用した完全な微調整をサポートし、全パラメータトレーニングが必要なシナリオに適しています。
マルチモーダル能力
視覚と言語処理能力を組み合わせ、画像に関連するテキスト内容を理解し生成できます。
大規模事前学習
75億パラメータの事前学習モデルに基づき、強力な特徴抽出と生成能力を備えています。

モデル能力

画像理解
テキスト生成
マルチモーダル推論
視覚言語動作タスク処理

使用事例

ロボット技術
ロボット視覚指令理解
画像とテキスト入力を通じてロボットにタスクを実行させる
マルチモーダルインタラクション
画像説明生成
入力画像に基づいて詳細なテキスト説明を生成する
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase