SESAME開源多模態模型 - 免費使用實現精準圖像定位與分割

SESAME

由tsunghanwu開發

SESAME是一款開源多模態模型，基於LLaVA模型在各種基於指令的圖像定位（分割）數據上進行微調訓練而成。

下載量 37

發布時間 : 4/25/2025

模型概述

SESAME主要用於大型多模態模型及聊天機器人的相關研究，由自迴歸語言模型和分割模型組成，支持圖像定位和分割任務。

多模態能力

結合語言模型和視覺分割模型，支持圖像與文本的多模態交互。

開源模型

基於MIT許可證開源，便於研究和二次開發。

指令驅動的圖像分割

能夠根據自然語言指令完成圖像定位和分割任務。

圖像分割

自然語言理解

多模態交互

計算機視覺研究

圖像分割研究

用於研究基於自然語言指令的圖像分割技術。

多模態模型開發

聊天機器人增強

為聊天機器人添加圖像理解和分割能力。

屬性	詳情
模型類型	SESAME是一個開源的多模態模型，通過在各種基於指令的圖像定位（分割）數據上微調LLaVA進行訓練，是自迴歸語言模型與分割模型的結合。
訓練數據	(FP-/R-)RefCOCO(+/g) + LLaVA 150K VQA數據