L

Llava Mini Llama 3.1 8b

由ICTNLP開發
LLaVA-Mini是一款高效的多模態大模型,通過僅使用1個視覺令牌表示圖像,顯著提升了圖像和視頻理解的效率。
下載量 12.45k
發布時間 : 1/7/2025

模型概述

LLaVA-Mini是一款統一的多模態大模型,能以高效方式支持圖像、高分辨率圖像和視頻的理解。通過多模態模型內部可解釋性研究指導,LLaVA-Mini在保證視覺能力的同時顯著提升效率。

模型特點

單視覺令牌高效表示
僅需1個令牌即可表示每張圖像,顯著提升處理效率
高效計算
減少77%浮點運算,響應延遲從100毫秒降至40毫秒
低顯存佔用
顯存佔用從360MB/圖像降至0.6MB/圖像,支持3小時視頻處理
多模態統一處理
統一支持圖像、高分辨率圖像和視頻的理解

模型能力

圖像理解
視頻理解
高分辨率圖像處理
多模態推理
文本生成

使用案例

視覺內容分析
圖像內容描述
分析圖像內容並生成描述性文本
準確識別圖像中的對象和場景
視頻內容理解
理解視頻內容並生成摘要
能夠描述視頻中發生的主要事件
交互式應用
視覺問答系統
回答用戶關於圖像或視頻內容的提問
提供準確且上下文相關的回答
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase