B

Blip Image Captioning Base

Salesforceによって開発
BLIPは先進的な視覚-言語事前学習モデルで、画像キャプション生成タスクに優れており、条件付きおよび無条件のテキスト生成をサポートします。
ダウンロード数 2.8M
リリース時間 : 12/12/2022

モデル概要

ViT基本アーキテクチャに基づく視覚-言語モデルで、画像から自然言語記述を生成するために特別に設計されており、ガイド付きアノテーションとノイズフィルタリング技術をサポートします。

モデル特徴

デュアルモード生成
条件付き(プロンプト付き)と無条件(自由生成)の画像キャプション生成を同時にサポート
ノイズフィルタリング技術
ガイド付きアノテーターを使用して合成記述を生成し、低品質データをフィルタリングしてトレーニングデータの品質を向上
マルチタスク適応
事前学習アーキテクチャは理解型および生成型の視覚-言語タスクに柔軟に転移可能

モデル能力

画像理解
自然言語生成
マルチモーダル推論
ゼロショット転移

使用事例

コンテンツ作成
自動画像タグ付け
ソーシャルメディア画像に自動的に記述テキストを生成
コンテンツのアクセシビリティと検索友好性の向上
支援技術
視覚障害者支援
視覚情報を音声記述に変換
視覚障害者が画像内容を理解するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase