B

Blip Image Captioning Large

movementsoによって開発
BLIPは統一された視覚言語事前学習フレームワークで、画像キャプション生成と理解タスクに優れており、ガイド付きアノテーション戦略によりウェブデータを効率的に活用
ダウンロード数 18
リリース時間 : 6/25/2023

モデル概要

COCOデータセットで事前学習された視覚言語モデルで、画像の自然言語記述を生成可能。条件付きおよび無条件の画像キャプション生成をサポート

モデル特徴

統一視覚言語フレームワーク
視覚言語理解と生成タスクを同時にサポートし、柔軟な転移能力を有する
ガイド付きアノテーション戦略
アノテーターが合成記述を生成し、フィルターが低品質サンプルを除去することで、ノイズの多いウェブデータを効果的に活用
マルチタスク適応性
画像-テキスト検索、画像キャプション生成、視覚質問応答など多様なタスクに適用可能

モデル能力

画像キャプション生成
視覚言語理解
条件付き画像キャプション
無条件画像キャプション

使用事例

コンテンツ生成
自動画像アノテーション
画像に自動的に記述テキストを生成
COCOデータセットでCIDEr指標2.8%向上
支援技術
視覚障害者支援
視覚障害ユーザーに画像内容を説明
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase