B

Blip Image Captioning Large Mocha

由moranyanuka開發
這是BLIP-Large模型的官方微調版本,採用MOCHa強化學習框架在MS-COCO數據集上進行微調,旨在緩解開放詞彙描述幻覺問題
下載量 188
發布時間 : 12/19/2023

模型概述

基於BLIP-Large架構的圖像描述生成模型,支持條件式與非條件式圖像描述生成

模型特點

MOCHa微調
採用MOCHa強化學習框架在MS-COCO數據集上進行微調
緩解描述幻覺
專門針對開放詞彙描述幻覺問題進行優化
雙模式生成
支持條件式與非條件式兩種圖像描述生成方式

模型能力

圖像描述生成
條件式文本生成
視覺語言理解

使用案例

圖像理解
自動圖像標註
為圖像生成準確的描述性文本
生成符合圖像內容的自然語言描述
輔助視覺障礙人士
將視覺內容轉換為文字描述
幫助視覺障礙者理解圖像內容
內容創作
社交媒體內容生成
為上傳的圖片自動生成配文
提高內容創作效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase