B

Blip Image Captioning Base Mocha

moranyanukaによって開発
BLIP基礎モデルの公式チェックポイント。MOCHA強化学習フレームワークを用いてMS-COCOデータセットでファインチューニングされ、オープン語彙記述における幻覚問題を緩和
ダウンロード数 88
リリース時間 : 12/19/2023

モデル概要

このモデルはBLIPアーキテクチャに基づく画像からテキストへの生成モデルで、画像記述生成に特化しています。MOCHA強化学習フレームワークによるファインチューニングにより、記述中の幻覚問題を効果的に削減しました。

モデル特徴

MOCHA強化学習ファインチューニング
MOCHAフレームワークを用いたファインチューニングにより、オープン語彙記述における幻覚問題を効果的に緩和
デュアルモード生成
条件付きと非条件付きの2種類の画像記述生成方式をサポート
マルチ精度サポート
CPU、GPU上で動作可能で、フル精度と半精度(float16)モードをサポート

モデル能力

画像記述生成
条件付きテキスト生成
非条件付きテキスト生成
多言語画像理解

使用事例

コンテンツ生成
自動画像タグ付け
ソーシャルメディアやコンテンツ管理システムの画像に対して自動的に記述文を生成
正確で幻覚のない画像記述を生成
視覚障害者支援
視覚障害ユーザーに画像内容のテキスト記述を提供
アクセシビリティ向上、視覚内容の理解支援
コンピュータビジョン研究
視覚言語モデル研究
視覚言語タスクのベースラインモデルまたは比較モデルとして
MOCHAで最適化されたベンチマーク性能を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase