N

Nano Image Captioning

由cnmoro開發
這是一個基於bert-tiny和vit-tiny的輕量級圖像字幕生成模型,僅重40MB,在CPU上運行速度極快。
下載量 184
發布時間 : 1/28/2025

模型概述

該模型結合了視覺編碼器(ViT-tiny)和文本解碼器(BERT-tiny),能夠為輸入的圖像生成簡潔的描述性字幕。

模型特點

輕量高效
模型僅40MB大小,在CPU上也能實現快速推理(約0.075秒/張)
雙微型架構
採用vit-tiny-patch16-224作為視覺編碼器,bert_uncased_L-2_H-128_A-2作為文本解碼器
優化推理設置
提供溫度採樣、top-p/top-k過濾和束搜索等多種生成策略

模型能力

圖像理解
自然語言生成
即時字幕生成

使用案例

無障礙技術
圖像描述生成
為視障用戶自動生成圖像的文字描述
生成簡潔準確的圖像描述(如:'一群人站在城市中心')
內容管理
自動圖片標註
為圖庫或社交媒體圖片自動生成標籤和描述
快速生成可搜索的元數據
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase