L

Llava Mini Llama 3.1 8b

Developed by ICTNLP
LLaVA-Mini是一款高效的多模態大模型,通過僅使用1個視覺令牌表示圖像,顯著提升了圖像和視頻理解的效率。
Downloads 12.45k
Release Time : 1/7/2025

Model Overview

LLaVA-Mini是一款統一的多模態大模型,能以高效方式支持圖像、高分辨率圖像和視頻的理解。通過多模態模型內部可解釋性研究指導,LLaVA-Mini在保證視覺能力的同時顯著提升效率。

Model Features

單視覺令牌高效表示
僅需1個令牌即可表示每張圖像,顯著提升處理效率
高效計算
減少77%浮點運算,響應延遲從100毫秒降至40毫秒
低顯存佔用
顯存佔用從360MB/圖像降至0.6MB/圖像,支持3小時視頻處理
多模態統一處理
統一支持圖像、高分辨率圖像和視頻的理解

Model Capabilities

圖像理解
視頻理解
高分辨率圖像處理
多模態推理
文本生成

Use Cases

視覺內容分析
圖像內容描述
分析圖像內容並生成描述性文本
準確識別圖像中的對象和場景
視頻內容理解
理解視頻內容並生成摘要
能夠描述視頻中發生的主要事件
交互式應用
視覺問答系統
回答用戶關於圖像或視頻內容的提問
提供準確且上下文相關的回答
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase