S

Swin Aragpt2 Image Captioning V3

由AsmaMassad開發
基於Swin Transformer和AraGPT2架構的圖像描述生成模型,能夠為輸入的圖像生成文本描述。
下載量 18
發布時間 : 6/6/2023

模型概述

該模型是一個視覺-語言模型,結合了Swin Transformer的圖像編碼能力和AraGPT2的文本生成能力,專門用於圖像描述生成任務。

模型特點

多模態架構
結合視覺Transformer和語言模型,實現圖像到文本的轉換
端到端訓練
整個模型進行端到端微調,優化圖像理解和文本生成的聯合能力
跨模態理解
能夠理解圖像內容並生成連貫的描述性文本

模型能力

圖像內容理解
阿拉伯語文本生成
圖像到文本轉換

使用案例

輔助技術
視障輔助
為視障用戶生成圖像描述
內容生成
社交媒體內容自動生成
為上傳的圖片自動生成描述文字
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase