M

Mblip Bloomz 7b

Gregorによって開発
mBLIPはBLIP-2アーキテクチャに基づく多言語視覚-言語モデルで、96言語の画像キャプション生成と視覚質問応答タスクをサポートします。
ダウンロード数 21
リリース時間 : 9/21/2023

モデル概要

mBLIPは、視覚トランスフォーマー(ViT)、クエリトランスフォーマー(Q-Former)、大規模言語モデル(BLOOMZ-7B)で構成される効率的な視覚-言語モデルで、多言語画像理解と生成タスクをサポートします。

モデル特徴

多言語サポート
96言語の画像理解と生成タスクをサポート
効率的なアライメント
多言語タスクミックスにより視覚コンポーネントと多言語LLMをアライメント
多機能アプリケーション
画像キャプション生成や視覚質問応答など多様なタスクをサポート
柔軟なデプロイ
フル精度、半精度、低精度(8ビット/4ビット)推論をサポート

モデル能力

多言語画像キャプション生成
多言語視覚質問応答
クロスモーダル理解
多言語テキスト生成

使用事例

コンテンツ生成
多言語画像キャプション
画像に対して異なる言語でキャプションテキストを生成
96言語で正確な画像キャプションを生成可能
教育
多言語視覚質問応答
画像内容に関する質問に異なる言語で回答
96言語の視覚質問応答をサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase