rgb-language_cap開源視覺語言模型 - 識別圖像物體空間關係並生成描述文本

首頁

Rgb Language Cap

由sadassa17開發

這是一個具備空間感知能力的視覺語言模型，能夠識別圖像中物體之間的空間關係並生成描述性文本。

圖像生成文本

Transformers

英語開源協議:MIT #空間關係描述 #ViT-GPT2架構 #圖像到文本生成

下載量 15

發布時間 : 1/26/2024

模型概述

該模型基於COCO數據集訓練，結合了ViT編碼器和GPT2解碼器架構，專門用於生成包含物體空間關係的圖像描述。

模型特點

空間關係識別

能夠準確識別並描述圖像中物體之間的空間方位關係（如左右、上下等）

結構化輸出

輸出始終遵循固定格式：'物體1'位於'物體2'的'方位'，便於後續處理

輕量級部署

僅需4GB GPU顯存即可運行，適合資源受限環境

模型能力

圖像理解

空間關係描述生成

多物體關係分析

使用案例

輔助技術

視覺障礙輔助

為視障人士生成包含空間關係的環境描述

幫助用戶理解物體間的相對位置

內容生成

自動圖像標註

為圖像生成包含空間關係的詳細描述

提升圖像檢索和分類的準確性

屬性	詳情
模型類型	空間感知視覺語言（VL）模型
訓練數據	COCO數據集圖像
庫名稱	transformers
任務標籤	圖像轉文本
標籤	text-generation-inference
評估指標	code_eval

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Rgb Language Cap

模型概述

模型特點

模型能力

使用案例

🚀 空間感知視覺語言（VL）模型

🚀 快速開始

運行要求

下載和運行方式

模型輸出說明

生成指定數量描述

📄 許可證