T

Tiny Image Captioning

由cnmoro開發
一個基於bert-tiny和vit-small的輕量級圖像描述生成模型,僅重100MB,在CPU上運行速度極快。
下載量 4,298
發布時間 : 1/28/2025

模型概述

該模型結合視覺Transformer(ViT)和BERT架構,能夠為輸入圖像生成簡潔的文字描述。適用於需要快速圖像理解的應用場景。

模型特點

輕量高效
模型僅100MB大小,在CPU上也能快速運行(示例顯示單次推理約0.11秒)
雙模型架構
結合視覺Transformer(ViT-small)和精簡版BERT(bert-tiny),平衡性能與效率
可調參數
支持temperature/top_p/top_k/beam search等生成參數調節

模型能力

圖像理解
自動字幕生成
視覺內容描述

使用案例

無障礙技術
圖像輔助描述
為視障用戶自動生成網頁圖像的文本描述
生成簡潔準確的場景描述(如'一群人在城市中心行走')
內容管理
媒體庫自動標註
為大量未標註圖像自動生成搜索標籤
快速創建可搜索的圖像元數據
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase