MoE-LLaVA-StableLM-1.6B-4e开源视觉语言模型 - 高效实现多模态学习应用

首页

Moe LLaVA StableLM 1.6B 4e

由 LanguageBind 开发

MoE-LLaVA是一种基于专家混合架构的大规模视觉语言模型，通过稀疏激活参数实现高效的多模态学习。

文本生成图像

Transformers

开源协议:Apache-2.0 #稀疏激活专家混合 #高效多模态学习 #低参数量高性能

下载量 125

发布时间 : 1/23/2024

模型简介

该模型采用专家混合架构，专注于视觉语言理解任务，能够在多项基准测试中达到或超越更大规模模型的性能。

模型特点

高效参数利用

仅需30亿稀疏激活参数即可达到7B规模模型的性能

卓越性能

在多项视觉理解任务上达到LLaVA-1.5-7B水平，部分任务超越13B模型

高效训练

可在8张V100显卡上2日内完成训练

模型能力

视觉语言理解

多模态学习

图像分析

文本生成

使用案例

视觉理解

图像描述生成

为输入图像生成准确的文字描述

在物体幻觉基准测试中表现优异

视觉问答

回答关于图像内容的复杂问题

达到或超越更大规模模型的性能

🚀 MoE-LLaVA：面向大视觉语言模型的专家混合模型

MoE-LLaVA是一种面向大视觉语言模型的专家混合模型，在多模态学习中展现出卓越性能。它以较少的参数实现了与更大模型相当甚至更优的表现，同时提供了简单高效的训练方案。

🚀 快速开始

环境要求

Python >= 3.10
Pytorch == 2.0.1
CUDA Version >= 11.7
Transformers == 4.36.2
Tokenizers==0.15.1

安装步骤

git clone https://github.com/PKU-YuanGroup/MoE-LLaVA
cd MoE-LLaVA
conda create -n moellava python=3.10 -y
conda activate moellava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation

# Below are optional. For Qwen model.
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention && pip install .
# Below are optional. Installing them might be slow.
# pip install csrc/layer_norm
# If the version of flash-attn is higher than 2.1.1, the following is not needed.
# pip install csrc/rotary

运行演示

Gradio Web UI

强烈建议通过以下命令尝试我们的Web演示，它集成了MoE-LLaVA目前支持的所有功能。我们还在Huggingface Spaces上提供了在线演示。

# use phi2
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-Phi2-2.7B-4e" 
# use qwen
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-Qwen-1.8B-4e" 
# use stablelm
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-StableLM-1.6B-4e"

CLI Inference

# use phi2
deepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-Phi2-2.7B-4e"  --image-file "image.jpg"
# use qwen
deepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-Qwen-1.8B-4e"  --image-file "image.jpg"
# use stablelm
deepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-StableLM-1.6B-4e"  --image-file "image.jpg"

✨ 主要特性

🔥 高性能，低参数

仅使用3B稀疏激活参数，MoE-LLaVA在各种视觉理解数据集上的表现与LLaVA-1.5-7B相当，甚至在对象幻觉基准测试中超越了LLaVA-1.5-13B。

🚀 简单基线，通过稀疏路径学习多模态交互

通过添加简单的MoE调优阶段，我们可以在8个V100 GPU上在2天内完成MoE-LLaVA的训练。

📦 模型库

模型	大语言模型	检查点	平均得分	VQAv2	GQA	VizWiz	SQA	T-VQA	POPE	MM-Bench	LLaVA-Bench-Wild	MM-Vet
MoE-LLaVA-1.6B×4-Top2	1.6B	LanguageBind/MoE-LLaVA-StableLM-1.6B-4e	60.0	76.0	60.4	37.2	62.6	47.8	84.3	59.4	85.9	26.1
MoE-LLaVA-1.8B×4-Top2	1.8B	LanguageBind/MoE-LLaVA-Qwen-1.8B-4e	60.2	76.2	61.5	32.6	63.1	48.0	87.0	59.6	88.7	25.3
MoE-LLaVA-2.7B×4-Top2	2.7B	LanguageBind/MoE-LLaVA-Phi2-2.7B-4e	63.9	77.1	61.1	43.4	68.7	50.2	85.0	65.5	93.2	31.1

💻 使用示例

基础用法

import torch
from moellava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
from moellava.conversation import conv_templates, SeparatorStyle
from moellava.model.builder import load_pretrained_model
from moellava.utils import disable_torch_init
from moellava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteria

def main():
    disable_torch_init()
    image = 'moellava/serve/examples/extreme_ironing.jpg'
    inp = 'What is unusual about this image?'
    model_path = 'LanguageBind/MoE-LLaVA-Phi2-2.7B-4e'  # LanguageBind/MoE-LLaVA-Qwen-1.8B-4e or LanguageBind/MoE-LLaVA-StableLM-1.6B-4e
    device = 'cuda'
    load_4bit, load_8bit = False, False  # FIXME: Deepspeed support 4bit or 8bit?
    model_name = get_model_name_from_path(model_path)
    tokenizer, model, processor, context_len = load_pretrained_model(model_path, None, model_name, load_8bit, load_4bit, device=device)
    image_processor = processor['image']
    conv_mode = "phi"  # qwen or stablelm
    conv = conv_templates[conv_mode].copy()
    roles = conv.roles
    image_tensor = image_processor.preprocess(image, return_tensors='pt')['pixel_values'].to(model.device, dtype=torch.float16)

    print(f"{roles[1]}: {inp}")
    inp = DEFAULT_IMAGE_TOKEN + '\n' + inp
    conv.append_message(conv.roles[0], inp)
    conv.append_message(conv.roles[1], None)
    prompt = conv.get_prompt()
    input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()
    stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
    keywords = [stop_str]
    stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)

    with torch.inference_mode():
        output_ids = model.generate(
            input_ids,
            images=image_tensor,
            do_sample=True,
            temperature=0.2,
            max_new_tokens=1024,
            use_cache=True,
            stopping_criteria=[stopping_criteria])

    outputs = tokenizer.decode(output_ids[0, input_ids.shape[1]:], skip_special_tokens=True).strip()
    print(outputs)

if __name__ == '__main__':
    main()

运行代码

deepspeed predict.py

📚 详细文档

训练与验证

训练和验证说明请参考TRAIN.md和EVAL.md。

自定义模型

自定义MoE-LLaVA的说明请参考CUSTOM.md。

可视化

可视化说明请参考VISUALIZATION.md。

🤖 API

我们开源了所有代码。如果您想在本地加载模型（例如LanguageBind/MoE-LLaVA），可以使用上述代码片段。

🙌 相关项目

Video-LLaVA 该框架使模型能够有效利用统一的视觉令牌。
LanguageBind 一个开源的五模态基于语言的检索框架。

👍 致谢

LLaVA 我们的代码基于此构建，它是一个高效的大语言和视觉助手。

📄 许可证

本项目的大部分内容遵循Apache 2.0许可证，详情见LICENSE文件。
本服务仅供研究预览，仅用于非商业用途，需遵守LLaMA的模型许可证、OpenAI生成数据的使用条款以及ShareGPT的隐私政策。如果您发现任何潜在的违规行为，请联系我们。

✏️ 引用

如果您觉得我们的论文和代码对您的研究有帮助，请考虑给我们一个⭐并引用：

@misc{lin2024moellava,
      title={MoE-LLaVA: Mixture of Experts for Large Vision-Language Models}, 
      author={Bin Lin and Zhenyu Tang and Yang Ye and Jiaxi Cui and Bin Zhu and Peng Jin and Junwu Zhang and Munan Ning and Li Yuan},
      year={2024},
      eprint={2401.15947},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@article{lin2023video,
  title={Video-LLaVA: Learning United Visual Representation by Alignment Before Projection},
  author={Lin, Bin and Zhu, Bin and Ye, Yang and Ning, Munan and Jin, Peng and Yuan, Li},
  journal={arXiv preprint arXiv:2311.10122},
  year={2023}
}