B

Blip2 Flan T5 Xxl

Developed by Salesforce
BLIP-2は画像エンコーダーと大規模言語モデルFlan T5-xxlを組み合わせた視覚言語モデルで、画像からテキストへのタスクに使用されます。
Downloads 6,419
Release Time : 2/9/2023

Model Overview

BLIP-2モデルは、画像エンコーダーとFlan T5-xxl言語モデルを凍結したまま、クエリ変換器(Q-Former)を訓練して画像とテキスト間の埋め込み空間のギャップを埋め、画像キャプション生成や視覚的質問応答などのタスクをサポートします。

Model Features

凍結済み事前学習モデル
画像エンコーダーと言語モデルを凍結したまま、クエリ変換器のみを訓練することで、訓練コストを削減。
マルチタスクサポート
画像キャプション生成、視覚的質問応答、チャットのような対話タスクをサポート。
効率的な埋め込み空間変換
クエリ変換器を通じて画像埋め込みを言語モデルが理解可能なクエリ埋め込みに変換。

Model Capabilities

画像キャプション生成
視覚的質問応答
画像テキスト対話

Use Cases

画像理解
画像キャプション生成
入力画像に対して自然言語の説明を生成。
視覚的質問応答
画像内容に関する自然言語の質問に回答。
インタラクティブアプリケーション
画像対話システム
画像とテキスト入力を基に対話を生成。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase