MoE-LLaVA-Qwen-1.8B-4eオープンソースビジュアル言語モデル - 効率的なマルチモーダル学習アプリケーションをサポート

ホーム

Moe LLaVA Qwen 1.8B 4e

LanguageBindによって開発

MoE-LLaVAはエキスパート混合アーキテクチャに基づく大規模視覚言語モデルで、スパース活性化パラメータにより効率的なマルチモーダル学習を実現

テキスト生成画像

Transformers

オープンソースライセンス:Apache-2.0 #エキスパート混合アーキテクチャ #スパース活性化パラメータ #マルチモーダル学習

ダウンロード数 176

リリース時間 : 1/23/2024

モデル概要

MoE-LLaVAは視覚と言語理解能力を統合し、エキスパート混合アーキテクチャを用いて効率的なマルチモーダルインタラクションを実現、パラメータ数を削減しながら高性能を維持

モデル特徴

効率的なパラメータ利用

30億のスパース活性化パラメータのみで7B密モデルの性能を達成

高速トレーニング

V100 GPU8枚で2日間でトレーニング完了

卓越した性能

多くの視覚理解タスクで大規模モデルを上回る

モデル能力

視覚的質問応答

画像理解

マルチモーダル推論

物体認識

画像キャプション生成

使用事例

インテリジェントアシスタント

画像内容質問応答

画像内容に関する様々な質問に回答

物体幻覚ベンチマークでLLaVA-1.5-13Bを上回る

コンテンツ理解

複雑なシーン理解

複数のオブジェクトを含む複雑なシーン画像を理解

多くの視覚理解データセットでLLaVA-1.5-7Bと同等の性能

🚀 MoE-LLaVA: 大規模ビジョン言語モデルのためのエキスパート混合モデル

MoE-LLaVAは、大規模ビジョン言語モデルにおけるエキスパート混合手法を用いて、多モーダル学習で優れた性能を発揮します。少ないパラメータで高い性能を達成し、簡単なベースラインで多モーダルの相互作用を学習することができます。

🚀 クイックスタート

本プロジェクトを試すには、まず必要なパッケージをインストールする必要があります。以下に手順を示します。

git clone https://github.com/PKU-YuanGroup/MoE-LLaVA
cd MoE-LLaVA
conda create -n moellava python=3.10 -y
conda activate moellava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation

# Below are optional. For Qwen model.
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention && pip install .
# Below are optional. Installing them might be slow.
# pip install csrc/layer_norm
# If the version of flash-attn is higher than 2.1.1, the following is not needed.
# pip install csrc/rotary

インストールが完了したら、以下のコマンドでウェブデモを試すことができます。

# use phi2
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-Phi2-2.7B-4e" 
# use qwen
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-Qwen-1.8B-4e" 
# use stablelm
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-StableLM-1.6B-4e"

✨ 主な機能

🔥 少ないパラメータで高い性能

わずか3Bの疎活性化パラメータで、MoE-LLaVAは様々な視覚理解データセットでLLaVA-1.5-7Bと同等の性能を示し、物体の幻覚ベンチマークではLLaVA-1.5-13Bを上回ります。

🚀 簡単なベースラインで多モーダル相互作用を学習

簡単なMoEチューニングステージを追加することで、8台のV100 GPUで2日以内にMoE-LLaVAのトレーニングを完了することができます。

🤗 デモ

GradioウェブUI

以下のコマンドでウェブデモを試すことを強くおすすめします。このデモには、MoE-LLaVAが現在サポートしているすべての機能が含まれています。また、Huggingface Spacesにもオンラインデモを用意しています。

# use phi2
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-Phi2-2.7B-4e" 
# use qwen
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-Qwen-1.8B-4e" 
# use stablelm
deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "LanguageBind/MoE-LLaVA-StableLM-1.6B-4e"

CLI推論

# use phi2
deepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-Phi2-2.7B-4e"  --image-file "image.jpg"
# use qwen
deepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-Qwen-1.8B-4e"  --image-file "image.jpg"
# use stablelm
deepspeed --include localhost:0 moellava/serve/cli.py --model-path "LanguageBind/MoE-LLaVA-StableLM-1.6B-4e"  --image-file "image.jpg"

🐳 モデルズー

モデル	LLM	チェックポイント	平均	VQAv2	GQA	VizWiz	SQA	T-VQA	POPE	MM-Bench	LLaVA-Bench-Wild	MM-Vet
MoE-LLaVA-1.6B×4-Top2	1.6B	LanguageBind/MoE-LLaVA-StableLM-1.6B-4e	60.0	76.0	60.4	37.2	62.6	47.8	84.3	59.4	85.9	26.1
MoE-LLaVA-1.8B×4-Top2	1.8B	LanguageBind/MoE-LLaVA-Qwen-1.8B-4e	60.2	76.2	61.5	32.6	63.1	48.0	87.0	59.6	88.7	25.3
MoE-LLaVA-2.7B×4-Top2	2.7B	LanguageBind/MoE-LLaVA-Phi2-2.7B-4e	63.9	77.1	61.1	43.4	68.7	50.2	85.0	65.5	93.2	31.1

⚙️ 必要条件とインストール

Python >= 3.10
Pytorch == 2.0.1
CUDAバージョン >= 11.7
Transformers == 4.36.2
Tokenizers==0.15.1

必要なパッケージをインストールするには、以下のコマンドを実行します。

git clone https://github.com/PKU-YuanGroup/MoE-LLaVA
cd MoE-LLaVA
conda create -n moellava python=3.10 -y
conda activate moellava
pip install --upgrade pip  # enable PEP 660 support
pip install -e .
pip install -e ".[train]"
pip install flash-attn --no-build-isolation

# Below are optional. For Qwen model.
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention && pip install .
# Below are optional. Installing them might be slow.
# pip install csrc/layer_norm
# If the version of flash-attn is higher than 2.1.1, the following is not needed.
# pip install csrc/rotary

🗝️ トレーニングと検証

トレーニングと検証の手順は、TRAIN.md と EVAL.md に記載されています。

💡 MoE-LLaVAのカスタマイズ

カスタマイズの手順は、CUSTOM.md に記載されています。

😍 可視化

可視化の手順は、VISUALIZATION.md に記載されています。

🤖 API

すべてのコードをオープンソースで公開しています。 ローカルでモデル（例: LanguageBind/MoE-LLaVA）を読み込む場合は、以下のコードスニペットを使用できます。

deepspeed predict.py

import torch
from moellava.constants import IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
from moellava.conversation import conv_templates, SeparatorStyle
from moellava.model.builder import load_pretrained_model
from moellava.utils import disable_torch_init
from moellava.mm_utils import tokenizer_image_token, get_model_name_from_path, KeywordsStoppingCriteria

def main():
    disable_torch_init()
    image = 'moellava/serve/examples/extreme_ironing.jpg'
    inp = 'What is unusual about this image?'
    model_path = 'LanguageBind/MoE-LLaVA-Phi2-2.7B-4e'  # LanguageBind/MoE-LLaVA-Qwen-1.8B-4e or LanguageBind/MoE-LLaVA-StableLM-1.6B-4e
    device = 'cuda'
    load_4bit, load_8bit = False, False  # FIXME: Deepspeed support 4bit or 8bit?
    model_name = get_model_name_from_path(model_path)
    tokenizer, model, processor, context_len = load_pretrained_model(model_path, None, model_name, load_8bit, load_4bit, device=device)
    image_processor = processor['image']
    conv_mode = "phi"  # qwen or stablelm
    conv = conv_templates[conv_mode].copy()
    roles = conv.roles
    image_tensor = image_processor.preprocess(image, return_tensors='pt')['pixel_values'].to(model.device, dtype=torch.float16)

    print(f"{roles[1]}: {inp}")
    inp = DEFAULT_IMAGE_TOKEN + '\n' + inp
    conv.append_message(conv.roles[0], inp)
    conv.append_message(conv.roles[1], None)
    prompt = conv.get_prompt()
    input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors='pt').unsqueeze(0).cuda()
    stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
    keywords = [stop_str]
    stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)

    with torch.inference_mode():
        output_ids = model.generate(
            input_ids,
            images=image_tensor,
            do_sample=True,
            temperature=0.2,
            max_new_tokens=1024,
            use_cache=True,
            stopping_criteria=[stopping_criteria])

    outputs = tokenizer.decode(output_ids[0, input_ids.shape[1]:], skip_special_tokens=True).strip()
    print(outputs)

if __name__ == '__main__':
    main()

🙌 関連プロジェクト

Video-LLaVA このフレームワークは、モデルが統一された視覚トークンを効率的に利用できるようにします。
LanguageBind オープンソースの5モダリティ言語ベースの検索フレームワークです。

👍 謝辞

LLaVA このプロジェクトは、このコードベースをベースに構築されており、効率的な大規模言語とビジョンアシスタントです。

🔧 技術詳細

トレーニングと検証の詳細は、TRAIN.md と EVAL.md に記載されています。カスタマイズの詳細は、CUSTOM.md に記載されています。可視化の詳細は、VISUALIZATION.md に記載されています。

📄 ライセンス

このプロジェクトの大部分は、LICENSE ファイルに記載されているApache 2.0ライセンスの下で公開されています。
このサービスは、研究用のプレビューであり、非商用利用のみを目的としています。LLaMAのモデルライセンス、OpenAIによって生成されたデータの利用規約、およびShareGPTのプライバシーポリシーに従う必要があります。潜在的な違反がある場合は、お問い合わせください。

✏️ 引用

もしこの論文とコードがあなたの研究に役立った場合は、スター⭐を付けて引用することを検討してください。

@misc{lin2024moellava,
      title={MoE-LLaVA: Mixture of Experts for Large Vision-Language Models}, 
      author={Bin Lin and Zhenyu Tang and Yang Ye and Jiaxi Cui and Bin Zhu and Peng Jin and Junwu Zhang and Munan Ning and Li Yuan},
      year={2024},
      eprint={2401.15947},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@article{lin2023video,
  title={Video-LLaVA: Learning United Visual Representation by Alignment Before Projection},
  author={Lin, Bin and Zhu, Bin and Ye, Yang and Ning, Munan and Jin, Peng and Yuan, Li},
  journal={arXiv preprint arXiv:2311.10122},
  year={2023}
}