T

Thaicapgen Clip Gpt2

由Natthaphon開發
基於CLIP編碼器和GPT2架構的編碼器-解碼器模型,用於生成泰語圖像描述
下載量 18
發布時間 : 10/30/2024

模型概述

該模型結合了CLIP的圖像編碼能力和GPT2的文本生成能力,專門用於為圖像生成泰語描述。適用於需要自動圖像標註或輔助視覺障礙人士的應用場景。

模型特點

多模態架構
結合視覺編碼器(CLIP)和語言解碼器(GPT2),實現圖像到文本的跨模態轉換
泰語優化
專門針對泰語訓練,在泰語版MSCOCO和IPU24數據集上微調
端到端生成
直接從圖像像素生成自然語言描述,無需中間表示

模型能力

圖像理解
泰語文本生成
跨模態轉換

使用案例

輔助技術
視覺障礙輔助
為視障用戶自動生成圖像描述
提升數字內容可訪問性
內容管理
自動圖像標註
為圖庫或社交媒體圖片生成泰語標籤
簡化內容分類和檢索
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase