L

Llava MORE Llama 3 1 8B Finetuning

由aimagelab開發
LLaVA-MORE是基於LLaVA架構的增強版本,集成了LLaMA 3.1作為語言模型,專注於圖像到文本的任務。
下載量 215
發布時間 : 7/30/2024

模型概述

LLaVA-MORE通過集成LLaMA 3.1作為語言模型,對著名的LLaVA架構進行了增強。該模型主要用於圖像到文本的任務,支持視覺指令調優。

模型特點

增強的視覺指令調優
通過集成LLaMA 3.1作為語言模型,提升了視覺指令調優的能力。
兩階段訓練
提供了第一階段和第二階段的檢查點,便於不同場景下的使用。

模型能力

圖像到文本生成
視覺指令理解

使用案例

視覺問答
圖像描述生成
根據輸入的圖像生成詳細的文本描述。
視覺指令響應
根據視覺輸入和指令生成相應的文本響應。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase