B

Blip Image Captioning Large

drgaryによって開発
COCOデータセットで事前学習された視覚言語モデルで、正確な画像キャプション生成に優れています
ダウンロード数 23
リリース時間 : 2/7/2025

モデル概要

BLIPは統一された視覚言語事前学習フレームワークで、視覚言語理解と生成タスクを同時に処理できます。このモデルはViT大型バックボーンネットワークを採用し、画像キャプション生成タスクで優れた性能を発揮します。

モデル特徴

統一視覚言語フレームワーク
視覚言語理解と生成タスクを同時にサポートし、マルチタスク統一処理を実現
高品質データ生成
'キャプション生成-ノイズ除去フィルタリング'メカニズムによりウェブデータを効果的に活用し、トレーニング品質を向上
ゼロショット転移能力
ビデオ言語タスクで強力なゼロショット転移能力を発揮

モデル能力

画像キャプション生成
条件付きテキスト生成
視覚言語理解

使用事例

コンテンツ生成
自動画像注釈
画像に自動的に説明文を生成
COCOデータセットでCIDEr指標2.8%向上
支援技術
視覚障害者支援
視覚障害者のために画像の文字説明を生成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase