llava-mini-llama-3.1-8b开源多模态模型 - 高效实现图像视频理解

首页

Llava Mini Llama 3.1 8b

由 ICTNLP 开发

LLaVA-Mini是一款高效的多模态大模型，通过仅使用1个视觉令牌表示图像，显著提升了图像和视频理解的效率。

图像生成文本

Safetensors

开源协议:Gpl-3.0 #单视觉令牌 #高效多模态 #视频理解

下载量 12.45k

发布时间 : 1/7/2025

模型简介

LLaVA-Mini是一款统一的多模态大模型，能以高效方式支持图像、高分辨率图像和视频的理解。通过多模态模型内部可解释性研究指导，LLaVA-Mini在保证视觉能力的同时显著提升效率。

模型特点

单视觉令牌高效表示

仅需1个令牌即可表示每张图像，显著提升处理效率

高效计算

减少77%浮点运算，响应延迟从100毫秒降至40毫秒

低显存占用

显存占用从360MB/图像降至0.6MB/图像，支持3小时视频处理

多模态统一处理

统一支持图像、高分辨率图像和视频的理解

模型能力

图像理解

视频理解

高分辨率图像处理

多模态推理

文本生成

使用案例

视觉内容分析

图像内容描述

分析图像内容并生成描述性文本

准确识别图像中的对象和场景

视频内容理解

理解视频内容并生成摘要

能够描述视频中发生的主要事件

交互式应用

视觉问答系统

回答用户关于图像或视频内容的提问

提供准确且上下文相关的回答

🚀 LLaVA-Mini：基于单视觉令牌的高效图像与视频大型多模态模型

LLaVA-Mini 是一个统一的大型多模态模型，能够高效地支持对图像、高分辨率图像和视频的理解。在大型多模态模型（LMM）可解释性的指导下，LLaVA-Mini 在确保视觉能力的同时显著提高了效率。目前，LLaVA-Mini 的代码、模型和演示均已开放！

如需了解 LLaVA-Mini 的详细信息，请参考我们的 GitHub 仓库！

✨ 主要特性

性能出色：LLaVA-Mini 仅使用 1 个视觉令牌，就能实现与 LLaVA-v1.5 相当的性能，而不是 576 个（压缩率为 0.17%）。
高效运行：LLaVA-Mini 可减少 77% 的浮点运算，能在 40 毫秒内提供低延迟响应，并能在 24GB 内存的 GPU 硬件上处理超过 10000 帧的视频。
深入洞察：为了开发出在减少视觉令牌的同时保持视觉理解能力的 LLaVA-Mini，我们进行了初步分析，以探索大型多模态模型（LMM）如何处理视觉令牌。详细分析和结论请参考我们的论文。

⚠️ 重要提示

LLaVA-Mini 仅需 1 个令牌 来表示每张图像，这提高了图像和视频理解的效率，包括：

计算量：减少 77% 的浮点运算

响应延迟：从 100 毫秒降至 40 毫秒

显存使用：从每张图像 360 MB 降至 0.6 MB，支持 3 小时的视频处理

performance

🚀 快速开始

环境要求

安装依赖包：

conda create -n llavamini python=3.10 -y
conda activate llavamini
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation

命令行交互

图像理解，使用 --image-file：

# 图像理解
CUDA_VISIBLE_DEVICES=0 python llavamini/eval/run_llava_mini.py \
    --model-path  ICTNLP/llava-mini-llama-3.1-8b \
    --image-file llavamini/serve/examples/baby_cake.png \
    --conv-mode llava_llama_3_1 --model-name "llava-mini" \
    --query "What's the text on the cake?"

视频理解，使用 --video-file：

# 视频理解
CUDA_VISIBLE_DEVICES=0 python llavamini/eval/run_llava_mini.py \
    --model-path  ICTNLP/llava-mini-llama-3.1-8b \
    --video-file llavamini/serve/examples/fifa.mp4 \
    --conv-mode llava_llama_3_1 --model-name "llava-mini" \
    --query "What happened in this video?"

复现与评估

关于 LLaVA-Mini 在图像/视频基准测试上的评估，请参考 Evaluation.md。

实际案例

LLaVA-Mini 实现了高质量的图像理解和视频理解。

case1

更多案例

case2

case3

case4

LLaVA-Mini 动态压缩图像以捕获重要的视觉信息（压缩过程中较亮区域的权重更高）。

compression

💻 使用示例

基础用法

# 图像理解
CUDA_VISIBLE_DEVICES=0 python llavamini/eval/run_llava_mini.py \
    --model-path  ICTNLP/llava-mini-llama-3.1-8b \
    --image-file llavamini/serve/examples/baby_cake.png \
    --conv-mode llava_llama_3_1 --model-name "llava-mini" \
    --query "What's the text on the cake?"

高级用法

# 视频理解
CUDA_VISIBLE_DEVICES=0 python llavamini/eval/run_llava_mini.py \
    --model-path  ICTNLP/llava-mini-llama-3.1-8b \
    --video-file llavamini/serve/examples/fifa.mp4 \
    --conv-mode llava_llama_3_1 --model-name "llava-mini" \
    --query "What happened in this video?"

🖥 演示

llava_mini

从此处下载 LLaVA-Mini 模型。
运行以下脚本并在浏览器中与 LLaVA-Mini 进行交互：

# 启动控制器
python -m llavamini.serve.controller --host 0.0.0.0 --port 10000 &

# 构建 LLaVA-Mini 的 API
CUDA_VISIBLE_DEVICES=0  python -m llavamini.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path ICTNLP/llava-mini-llama-3.1-8b --model-name llava-mini &

# 启动交互式界面
python -m llavamini.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload  --port 7860

📄 许可证

本项目采用 GPL-3.0 许可证。

🖋 引用

如果本仓库对你有帮助，请按以下格式引用：

@misc{llavamini,
      title={LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token}, 
      author={Shaolei Zhang and Qingkai Fang and Zhe Yang and Yang Feng},
      year={2025},
      eprint={2501.03895},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.03895}, 
}

如果您有任何问题，请随时提交 issue 或联系 zhangshaolei20z@ict.ac.cn。