V

Vit Gpt2 Image Captioning

由Xenova開發
基於ViT和GPT2架構的圖像描述生成模型,可將輸入的圖像轉換為自然語言描述。
下載量 2,163
發布時間 : 5/2/2023

模型概述

該模型結合了視覺Transformer(ViT)和GPT2語言模型,能夠自動為輸入圖像生成簡潔準確的文字描述。適用於需要圖像理解與文本生成結合的應用場景。

模型特點

視覺-語言聯合建模
結合視覺Transformer和GPT2語言模型,實現圖像到文本的端到端生成
ONNX格式支持
提供適配Transformers.js的ONNX權重版本,便於網頁端部署
輕量級部署
模型經過優化,適合在Web環境中運行

模型能力

圖像理解
自然語言生成
圖像到文本轉換

使用案例

無障礙技術
圖像輔助描述
為視障用戶自動生成圖像的文字描述
提升視障用戶對圖像內容的理解
內容管理
自動圖像標註
為大量圖像自動生成描述性標籤
提高圖像檢索和管理效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase