mPLUG-Owl3-7B-240728オープンソース多モーダル大規模モデル - 長い画像シーケンスの理解を解決し、画像と文字、ビデオのタスクをサポート

ホーム

Mplug Owl3 7B 240728

mPLUGによって開発

mPLUG-Owl3は、長い画像シーケンス理解の課題を解決するために設計された最先端のマルチモーダル大規模言語モデルで、単一画像、複数画像、および動画タスクの処理をサポートします。

テキスト生成画像

Safetensors

英語オープンソースライセンス:Apache-2.0 #超注意力メカニズム #長い視覚シーケンス処理 #マルチモーダル対話

ダウンロード数 4,823

リリース時間 : 8/12/2024

モデル概要

mPLUG-Owl3は、革新的な'超注意力メカニズム'（Hyper Attention）により、長い視覚シーケンス処理能力を大幅に向上させ、より長い視覚シーケンス入力をサポートしながら高性能を維持します。

モデル特徴

超注意力メカニズム

革新的なHyper Attention技術により、長い視覚シーケンス処理速度が6倍向上し、8倍の長さの視覚シーケンス処理をサポートします。

マルチモーダル理解

画像と動画コンテンツの理解と分析を同時にサポートし、強力なクロスモーダル推論能力を備えています。

効率的な推論

sdpaとflash_attention_2の2つの効率的な注意力実装方式をサポートし、推論性能を最適化します。

モデル能力

画像コンテンツ記述

動画コンテンツ理解

マルチモーダル対話

長いシーケンス視覚処理

使用事例

視覚コンテンツ分析

画像記述生成

入力画像に対して詳細なコンテンツ記述を生成

画像内のオブジェクト、シーン、関係を正確に識別して記述可能

動画コンテンツ理解

動画コンテンツを分析して要約記述を生成

動画内のアクション、シーン変化、キーイベントを理解可能

人間とコンピュータの相互作用

マルチモーダル対話システム

画像または動画コンテンツに基づく自然言語対話

スムーズな視覚誘導対話体験を実現可能

🚀 mPLUG-Owl3

mPLUG-Owl3は、長い画像シーケンス理解の課題に取り組むために設計された最先端のマルチモーダル大規模言語モデルです。Hyper Attentionという手法を提案し、マルチモーダル大規模言語モデルにおける長い視覚シーケンス理解の速度を6倍に向上させ、8倍長い視覚シーケンスの処理を可能にします。同時に、単一画像、複数画像、ビデオタスクでも優れた性能を維持します。

🚀 クイックスタート

mPLUG-Owl3をロードします。現在、['sdpa', 'flash_attention_2'] の attn_implementation のみをサポートしています。

import torch
model_path = 'mPLUG/mPLUG-Owl3-7B-240728'
config = mPLUGOwl3Config.from_pretrained(model_path)
print(config)
# model = mPLUGOwl3Model(config).cuda().half()
model = mPLUGOwl3Model.from_pretrained(model_path, attn_implementation='sdpa', torch_dtype=torch.half)
model.eval().cuda()

画像でチャットするには、以下のコードを使用します。

from PIL import Image

from transformers import AutoTokenizer, AutoProcessor
from decord import VideoReader, cpu    # pip install decord
model_path = 'mPLUG/mPLUG-Owl3-7B-240728'
tokenizer = AutoTokenizer.from_pretrained(model_path)
processor = model.init_processor(tokenizer)

image = Image.new('RGB', (500, 500), color='red')

messages = [
    {"role": "user", "content": """<|image|>
Describe this image."""},
    {"role": "assistant", "content": ""}
]

inputs = processor(messages, images=[image], videos=None)

inputs.to('cuda')
inputs.update({
    'tokenizer': tokenizer,
    'max_new_tokens':100,
    'decode_text':True,
})


g = model.generate(**inputs)
print(g)

ビデオでチャットするには、以下のコードを使用します。

from PIL import Image

from transformers import AutoTokenizer, AutoProcessor
from decord import VideoReader, cpu    # pip install decord
model_path = 'mPLUG/mPLUG-Owl3-7B-240728'
tokenizer = AutoTokenizer.from_pretrained(model_path)
processor = model.init_processor(tokenizer)


messages = [
    {"role": "user", "content": """<|video|>
Describe this video."""},
    {"role": "assistant", "content": ""}
]

videos = ['/nas-mmu-data/examples/car_room.mp4']

MAX_NUM_FRAMES=16

def encode_video(video_path):
    def uniform_sample(l, n):
        gap = len(l) / n
        idxs = [int(i * gap + gap / 2) for i in range(n)]
        return [l[i] for i in idxs]

    vr = VideoReader(video_path, ctx=cpu(0))
    sample_fps = round(vr.get_avg_fps() / 1)  # FPS
    frame_idx = [i for i in range(0, len(vr), sample_fps)]
    if len(frame_idx) > MAX_NUM_FRAMES:
        frame_idx = uniform_sample(frame_idx, MAX_NUM_FRAMES)
    frames = vr.get_batch(frame_idx).asnumpy()
    frames = [Image.fromarray(v.astype('uint8')) for v in frames]
    print('num frames:', len(frames))
    return frames
video_frames = [encode_video(_) for _ in videos]
inputs = processor(messages, images=None, videos=video_frames)

inputs.to('cuda')
inputs.update({
    'tokenizer': tokenizer,
    'max_new_tokens':100,
    'decode_text':True,
})


g = model.generate(**inputs)
print(g)

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

📚 引用

もし私たちの研究が役に立った場合は、以下のように引用してください。

@misc{ye2024mplugowl3longimagesequenceunderstanding,
      title={mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models}, 
      author={Jiabo Ye and Haiyang Xu and Haowei Liu and Anwen Hu and Ming Yan and Qi Qian and Ji Zhang and Fei Huang and Jingren Zhou},
      year={2024},
      eprint={2408.04840},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2408.04840}, 
}

Github: mPLUG-Owl