B

Blip2 Flan T5 Xxl

Salesforceによって開発
BLIP-2は画像エンコーダーと大規模言語モデルFlan T5-xxlを組み合わせた視覚言語モデルで、画像からテキストへのタスクに使用されます。
ダウンロード数 6,419
リリース時間 : 2/9/2023

モデル概要

BLIP-2モデルは、画像エンコーダーとFlan T5-xxl言語モデルを凍結したまま、クエリ変換器(Q-Former)を訓練して画像とテキスト間の埋め込み空間のギャップを埋め、画像キャプション生成や視覚的質問応答などのタスクをサポートします。

モデル特徴

凍結済み事前学習モデル
画像エンコーダーと言語モデルを凍結したまま、クエリ変換器のみを訓練することで、訓練コストを削減。
マルチタスクサポート
画像キャプション生成、視覚的質問応答、チャットのような対話タスクをサポート。
効率的な埋め込み空間変換
クエリ変換器を通じて画像埋め込みを言語モデルが理解可能なクエリ埋め込みに変換。

モデル能力

画像キャプション生成
視覚的質問応答
画像テキスト対話

使用事例

画像理解
画像キャプション生成
入力画像に対して自然言語の説明を生成。
視覚的質問応答
画像内容に関する自然言語の質問に回答。
インタラクティブアプリケーション
画像対話システム
画像とテキスト入力を基に対話を生成。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase