L

Llava Llama 3 8b

由Intel開發
基於LLaVA-v1.5框架訓練的大型多模態模型,採用80億參數的Meta-Llama-3-8B-Instruct作為語言主幹,並配備基於CLIP的視覺編碼器。
下載量 387
發布時間 : 5/8/2024

模型概述

該模型針對多模態基準評估進行了微調,也可用作多模態聊天機器人。

模型特點

多模態能力
結合視覺編碼器和語言模型,能夠理解和生成與圖像相關的文本內容。
高性能基準
在多個多模態基準測試中表現優異,如GQA、MMVP、Pope等。
基於LLaVA-v1.5框架
採用改進的視覺指令調優基線,提升了多模態任務的性能。

模型能力

圖像理解
多模態對話
視覺問答
圖像描述生成

使用案例

多模態評估
多模態基準測試
用於評估模型在多模態任務中的性能表現。
在GQA、MMVP、Pope等基準測試中取得較高分數。
聊天機器人
多模態聊天
作為多模態聊天機器人,能夠理解和回答與圖像相關的問題。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase