Trillion-LLaVA-7B-FP16開源視覺語言模型 - 免費部署實現卓越圖像理解與跨語言推理

Trillion LLaVA 7B FP16

由trillionlabs開發

Trillion-LLaVA-7B是一個具備圖像理解能力的視覺語言模型，通過英文視覺語言指令對訓練，展現出卓越的跨語言視覺推理能力。

下載量 14

發布時間 : 4/20/2025

模型概述

該模型基於Trillion-7B-preview開發，採用與LLaVA相同的架構和訓練策略，專注於視覺語言理解任務，特別展示了在韓語視覺推理任務中的出色表現。

跨語言視覺推理能力

僅使用英文視覺語言對訓練，卻在韓語視覺推理任務中表現出色

兩階段訓練策略

採用與LLaVA相同的兩階段訓練方法，確保模型性能

多語言基礎

強大的多語言能力實現跨語言視覺推理的有效遷移

圖像理解

視覺問答

跨語言視覺推理

多模態理解

視覺問答系統

多語言視覺問答

支持英文和韓文的圖像相關問題解答

在MMBENCH韓文測試中達到0.61的評分

教育輔助

多語言學習輔助

幫助學習者通過視覺內容理解不同語言

模型	MMBENCH 英文	MMBENCH 韓文	SEED - I 英文	SEED - I 韓文	MMStar 英文	MMStar 韓文	K - DTCB
Llava - 1.5 - 7b	0.64	0.43	0.66	0.52	0.34	0.33	0.30
Llava - 1.6 - mistral - 7b	0.68	0.49	0.72	0.61	0.36	0.33	0.30
Trillion - LLaVA - 7B	0.66	0.61	0.68	0.66	0.37	0.37	0.33