L

Llava Llama 3 8b V1 1 Transformers

由xtuner開發
基於Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微調的LLaVA模型,支持圖像文本到文本任務
下載量 454.61k
發布時間 : 4/26/2024

模型概述

這是一個多模態模型,能夠理解圖像內容並生成相關文本描述或回答關於圖像的問題。

模型特點

多模態理解
結合視覺編碼器和語言模型,能夠理解圖像內容並生成相關文本
高性能
在多個基準測試中表現優於LLaVA-v1.5-7B模型
LoRA微調
使用LoRA技術對視覺編碼器進行微調,提高模型性能

模型能力

圖像內容理解
圖像問答
多模態對話
視覺推理

使用案例

視覺問答
圖像內容描述
對圖像內容進行詳細描述
準確識別圖像中的物體、場景和關係
視覺推理
回答關於圖像的推理問題
在MMBench等基準測試中表現優異
教育
科學問題解答
基於圖像解答科學問題
在ScienceQA測試中獲得72.9分
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase