B

Blip Image Captioning Base Mocha

由moranyanuka開發
BLIP基礎模型的官方檢查點,採用MOCHA強化學習框架在MS-COCO數據集上微調,用於緩解開放詞彙描述幻覺問題
下載量 88
發布時間 : 12/19/2023

模型概述

該模型是基於BLIP架構的圖像到文本生成模型,專門用於生成圖像描述。通過MOCHA強化學習框架微調,有效減少了描述中的幻覺問題。

模型特點

MOCHA強化學習微調
採用MOCHA框架進行微調,有效緩解開放詞彙描述中的幻覺問題
雙模式生成
支持條件式和非條件式兩種圖像描述生成方式
多精度支持
可在CPU、GPU上運行,支持全精度和半精度(float16)模式

模型能力

圖像描述生成
條件式文本生成
非條件式文本生成
多語言圖像理解

使用案例

內容生成
自動圖像標註
為社交媒體或內容管理系統中的圖像自動生成描述性文字
生成準確、無幻覺的圖像描述
輔助視覺障礙人士
為視覺障礙用戶提供圖像內容的文字描述
提高可訪問性,幫助理解視覺內容
計算機視覺研究
視覺語言模型研究
作為視覺語言任務的基線模型或對比模型
提供經過MOCHA優化的基準性能
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase