M

Mblip Mt0 Xl

Gregorによって開発
mBLIPは多言語視覚-言語モデルで、BLIP-2アーキテクチャに基づき、96言語の画像キャプション生成と視覚質問応答タスクをサポートします。
ダウンロード数 374
リリース時間 : 7/10/2023

モデル概要

mBLIPはBLIP-2モデルで、視覚トランスフォーマー(ViT)、クエリトランスフォーマー(Q-Former)、大規模言語モデル(LLM)で構成され、多言語タスク混合を通じて多言語LLM(mt0-xl)に再アライメントされ、画像キャプション生成と視覚質問応答タスクをサポートします。

モデル特徴

多言語サポート
96言語の画像理解と生成タスクをサポート
効率的なアライメント
多言語タスク混合を通じて視覚と言語コンポーネントを再アライメント
ゼロショット能力
ゼロショット設定で条件付きテキスト生成が可能

モデル能力

画像からテキストへ
多言語画像キャプション生成
視覚質問応答
多言語理解

使用事例

コンテンツ生成
多言語画像キャプション
画像に対して異なる言語でキャプションを生成
96言語の画像キャプションを生成可能
質問応答システム
多言語視覚質問応答
画像内容に関する質問に回答
96言語の質問応答をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase