Trillion-LLaVA-7B開源視覺語言模型 - 免費使用輕鬆實現圖像理解

Trillion LLaVA 7B

由trillionlabs開發

Trillion-LLaVA-7B是一個能夠理解圖像的視覺語言模型（VLM），基於Trillion-7B-preview基礎模型開發。

下載量 199

發布時間 : 4/20/2025

模型概述

該模型是一個視覺語言模型，能夠理解和處理圖像與文本的結合任務，特別在跨語言視覺推理方面表現出色。

跨語言視覺推理能力

儘管僅使用英語視覺語言指令對進行訓練，模型在韓語視覺推理任務中表現出色。

多語言基礎

模型強大的多語言基礎使其能夠在無需語言特定視覺訓練數據的情況下，有效地跨語言遷移視覺推理能力。

兩階段訓練策略

採用與LLaVA相同的數據集和兩階段訓練策略，確保模型性能的穩定性和可靠性。

圖像理解

視覺問答

多語言視覺推理

視覺問答

多語言視覺問答

在英語和韓語的視覺問答任務中提供準確的回答。

在MMBENCH、SEED-I、MMStar和K-DTCB等基準測試中表現優異。

跨語言視覺推理

韓語視覺推理

儘管僅使用英語數據進行訓練，模型在韓語視覺推理任務中表現出色。

在MMBENCH韓語測試中得分0.61，優於其他對比模型。

模型	MMBENCH 英文	MMBENCH 韓文	SEED - I 英文	SEED - I 韓文	MMStar 英文	MMStar 韓文	K - DTCB
Llava - 1.5 - 7b	0.64	0.43	0.66	0.52	0.34	0.33	0.30
Llava - 1.6 - mistral - 7b	0.68	0.49	0.72	0.61	0.36	0.33	0.30
Trillion - LLaVA - 7B	0.66	0.61	0.68	0.66	0.37	0.37	0.33