I

Instructblip Flan T5 Xxl 8bit

Mediocreatmybestによって開発
BLIP-2はFlan T5-xxlを基にした視覚-言語モデルで、画像エンコーダーと大規模言語モデルを凍結して事前学習を行い、画像キャプション生成や視覚的質問応答などのタスクをサポートします。
ダウンロード数 18
リリース時間 : 8/8/2023

モデル概要

BLIP-2モデルはCLIP画像エンコーダー、クエリトランスフォーマー、大規模言語モデル(Flan T5-xxl)で構成され、クエリトランスフォーマーを訓練することで視覚と言語モダリティのギャップを埋め、画像からテキストを生成するタスクを実現します。

モデル特徴

マルチモーダル事前学習
視覚エンコーダーと大規模言語モデルを組み合わせ、クロスモーダルな理解と生成を実現
パラメータ効率
クエリトランスフォーマー(Q-Former)のみを訓練し、画像エンコーダーと言語モデルのパラメータは凍結
ゼロショット能力
事前学習モデルを微調せずに下流タスク(例:VQA)に直接使用可能

モデル能力

画像キャプション生成
視覚的質問応答(VQA)
画像に基づく対話生成

使用事例

コンテンツ生成
自動画像タグ付け
画像に対して自然言語の説明を生成
画像内容に合ったテキスト説明を生成可能
インテリジェントインタラクション
視覚的質問応答システム
画像内容に関する自然言語の質問に回答
'画像の中に犬は何匹いますか?'などの質問に正しく回答可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase