B

Blip Image Captioning Large Mocha

moranyanukaによって開発
これはBLIP-Largeモデルの公式ファインチューニング版で、MOCHa強化学習フレームワークを用いてMS-COCOデータセットでファインチューニングされ、開放語彙記述の幻覚問題を緩和することを目的としています
ダウンロード数 188
リリース時間 : 12/19/2023

モデル概要

BLIP-Largeアーキテクチャに基づく画像記述生成モデルで、条件付きと非条件付きの画像記述生成をサポートします

モデル特徴

MOCHaファインチューニング
MOCHa強化学習フレームワークを用いてMS-COCOデータセットでファインチューニングされています
記述幻覚の緩和
開放語彙記述の幻覚問題に特化して最適化されています
デュアルモード生成
条件付きと非条件付きの2つの画像記述生成方式をサポートします

モデル能力

画像記述生成
条件付きテキスト生成
視覚言語理解

使用事例

画像理解
自動画像タグ付け
画像に対して正確な記述テキストを生成します
画像内容に合致する自然言語記述を生成します
視覚障害者支援
視覚コンテンツをテキスト記述に変換します
視覚障害者が画像内容を理解するのを支援します
コンテンツ作成
ソーシャルメディアコンテンツ生成
アップロードした画像に対して自動的にキャプションを生成します
コンテンツ作成効率を向上させます
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase