B

Blip2 Opt 2.7b 8bit

Mediocreatmybestによって開発
BLIP-2は画像エンコーダーと大規模言語モデルを組み合わせた視覚言語事前学習モデルで、画像からテキストを生成するタスクに使用されます。
ダウンロード数 69
リリース時間 : 7/7/2023

モデル概要

BLIP-2は画像エンコーダー、クエリトランスフォーマー、大規模言語モデルで構成され、画像キャプション生成、視覚的質問応答、画像ベースの対話生成が可能です。

モデル特徴

クロスモーダル事前学習
クエリトランスフォーマーを介して視覚と言語モダリティを橋渡し、画像からテキストへの変換を実現
パラメータ効率
事前学習済みの画像エンコーダーと言語モデルを凍結し、軽量なクエリトランスフォーマーのみを訓練
マルチタスクサポート
画像キャプション生成、視覚的質問応答、画像ベースの対話など複数のタスクをサポート

モデル能力

画像キャプション生成
視覚的質問応答(VQA)
画像ベースの対話生成
画像からテキストへの変換

使用事例

コンテンツ生成
自動画像タグ付け
画像に対して記述的なテキストを生成
視覚障害者支援やコンテンツ管理システムに活用可能
インテリジェントQA
視覚的質問応答システム
画像内容に関する自然言語質問に回答
教育や小売などのシナリオでのインテリジェントアシスタントに利用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase