MiniVLAオープンソースビジュアル言語モデル - 画像テキストからテキストへのマルチモーダルタスクを無料でサポート

ホーム

Minivla Vq Libero90 Prismatic

Stanford-ILIADによって開発

MiniVLAは軽量な視覚言語モデルで、Prismatic VLMsトレーニングフレームワークと互換性があり、画像テキストからテキストへのマルチモーダルタスクをサポートします。

画像生成テキスト

Transformers

英語オープンソースライセンス:MIT #マルチモーダル事前学習 #視覚言語理解 #ロボット技術

ダウンロード数 31

リリース時間 : 12/11/2024

モデル概要

MiniVLAは事前学習されたマルチモーダル視覚言語モデルで、画像テキストからテキストへのタスクに焦点を当てています。このモデルはPrismatic VLMsトレーニングフレームワークと互換性があり、完全なファインチューニングに適しています。

モデル特徴

Prismaticトレーニングフレームワーク互換

Prismatic VLMsプロジェクトコードベースを直接使用して完全なファインチューニングが可能

軽量設計

大規模な視覚言語モデルと比較して、パラメータ規模が小さいながらも優れた性能を発揮

マルチモーダル能力

画像とテキストの共同理解と生成タスクを処理可能

モデル能力

画像理解

テキスト生成

マルチモーダル推論

視覚的質問応答

使用事例

ロボット技術

視覚ナビゲーション指令理解

ロボットが視覚シーンを理解し、対応する動作指令を生成するのを支援

コンテンツ生成

画像説明生成

入力画像に基づいて自然言語の説明を生成

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Minivla Vq Libero90 Prismatic

モデル概要

モデル特徴

モデル能力

使用事例

🚀 MiniVLA VQ 1B (Prismatic互換バージョン)

🚀 クイックスタート

📄 ライセンス

📚 ドキュメント

引用