B

Blip2 Flan T5 Xl

Salesforceによって開発
BLIP-2はFlan T5-xlを基にした視覚言語モデルで、画像エンコーダーと大規模言語モデルの重みを凍結した状態で事前学習を行い、画像キャプション生成や視覚的質問応答などのタスクをサポートします。
ダウンロード数 91.77k
リリース時間 : 2/6/2023

モデル概要

BLIP-2は画像エンコーダー、クエリトランスフォーマー、大規模言語モデルを含み、クエリトランスフォーマーを訓練することで画像とテキストの埋め込み空間のギャップを埋め、画像キャプション生成や視覚的質問応答などのタスクに利用できます。

モデル特徴

凍結事前学習モデル
画像エンコーダーと大規模言語モデルの重みを凍結したまま、クエリトランスフォーマーのみを訓練することで、訓練効率を向上させます。
マルチタスクサポート
画像キャプション生成、視覚的質問応答、チャットのような対話など、様々なタスクをサポートします。
クエリトランスフォーマー
BERTのようなクエリトランスフォーマーを使用してクエリトークンをクエリ埋め込みにマッピングし、画像とテキストの埋め込み空間のギャップを埋めます。

モデル能力

画像キャプション生成
視覚的質問応答
画像テキスト対話

使用事例

画像理解
画像キャプション生成
入力画像に基づいて記述的なテキストを生成します。
視覚的質問応答
画像内容に関する自然言語の質問に答えます。
インタラクティブアプリケーション
画像対話
画像とテキストプロンプトに基づいてチャットのような対話を行います。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase