M

Mini Image Captioning

由cnmoro開發
一個基於bert-mini和vit-small的輕量級圖像字幕生成模型,僅重130MB,在CPU上運行速度極快。
下載量 292
發布時間 : 1/27/2025

模型概述

該模型結合了視覺編碼器(ViT)和文本解碼器(BERT)的輕量級架構,專門用於為輸入圖像生成描述性文本字幕。

模型特點

輕量高效
模型僅130MB大小,特別優化了CPU推理速度(示例中僅需0.19秒)
雙模態架構
結合視覺Transformer(ViT)和文本Transformer(BERT)的優勢
可調節生成
支持溫度採樣(temperature)、top-p/top-k過濾和束搜索(beam search)等多種生成策略

模型能力

圖像理解
自然語言生成
場景描述
多模態處理

使用案例

內容生成
社交媒體圖像標註
自動為上傳的社交媒體圖片生成描述文字
生成類似'一大群人穿過繁華的城市'的連貫描述
輔助功能
視障輔助
為視障用戶提供圖像內容的語音描述
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase