R

Rgb Language Cap

由voxreality開發
這是一個基於COCO數據集訓練的視覺語言模型,能夠生成包含圖像實體間空間關係的描述文本。
下載量 24
發布時間 : 9/3/2024

模型概述

該模型採用ViT編碼器與GPT2解碼器的序列到序列架構,專為圖像描述生成設計,輸出始終包含物體間的空間方位關係。

模型特點

空間關係感知
生成的描述文本會明確標註物體間的空間方位關係(如'位於左側')
可控輸出長度
支持通過參數控制生成描述的最大句數(最多5句)
輕量級部署
僅需4GB GPU顯存即可運行

模型能力

圖像描述生成
空間關係識別
多句子文本生成

使用案例

輔助技術
視覺障礙輔助
為視障用戶生成包含空間關係的環境描述
幫助用戶理解物體間的相對位置
內容生成
自動圖像標註
為圖像庫生成包含空間信息的元數據
提升圖像檢索的準確性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase