B

Blip Image Captioning Large

Salesforceによって開発
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成タスクに優れており、条件付きおよび無条件の画像キャプション生成をサポートします。
ダウンロード数 2.5M
リリース時間 : 12/13/2022

モデル概要

COCOデータセットで事前学習された画像キャプション生成モデルで、ViT大型バックボーンネットワークを採用し、入力画像に対して自然言語の説明を生成できます。

モデル特徴

統一視覚-言語フレームワーク
視覚-言語理解と生成タスクを同時にサポートし、柔軟な転移能力を備えています
ガイド付きアノテーション技術
captionerで合成説明を生成し、filterでノイズを除去することで、ウェブデータを効果的に利用します
マルチタスク適応
画像テキスト検索、画像キャプション生成、視覚的質問応答など、さまざまなタスクに適用可能です

モデル能力

画像キャプション生成
条件付き画像キャプション
無条件画像キャプション
視覚-言語理解

使用事例

コンテンツ生成
自動画像タグ付け
画像ライブラリ内の画像に自動的に説明文を生成します
画像検索の効率とアクセシビリティを向上させます
支援技術
視覚障害者支援
視覚障害ユーザーに画像内容を説明します
デジタルコンテンツのアクセシビリティを強化します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase