L

Llava Int4

由emon-j開發
LLaVA是一個多模態大模型,通過連接視覺編碼器與大語言模型實現通用視覺助手功能
下載量 40
發布時間 : 11/15/2023

模型概述

LLaVA通過簡單投影矩陣連接CLIP視覺編碼器與Vicuna/LLaMa等大語言模型,能夠理解並執行語言和圖像指令

模型特點

多模態理解
同時處理視覺和語言輸入,理解圖像內容並生成相關響應
簡單架構設計
通過輕量級投影矩陣連接預訓練視覺和語言模型,實現高效多模態融合
指令跟隨能力
能夠理解複雜的多模態指令並執行相應任務

模型能力

圖像內容理解
視覺問答
多模態對話
圖像描述生成
視覺指令執行

使用案例

智能助手
視覺輔助問答
回答用戶關於圖像內容的各類問題
提供準確且上下文相關的答案
教育
交互式學習
通過圖像和文字交互解釋複雜概念
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase