LongVU_Qwen2_7Bオープンソースマルチモーダルモデル - 長いビデオの言語理解タスクを無料でサポート

ホーム

Longvu Qwen2 7B

Vision-CAIRによって開発

LongVUはQwen2-7Bをベースとしたマルチモーダルモデルで、長編動画の言語理解タスクに特化し、時空間適応圧縮技術を採用しています。

ビデオ生成テキスト

Safetensors

オープンソースライセンス:Apache-2.0 #長編動画理解 #時空間適応圧縮 #マルチモーダル質問応答

ダウンロード数 230

リリース時間 : 10/18/2024

モデル概要

このモデルは視覚と言語処理能力を統合し、長編動画コンテンツに関連するテキスト記述の理解と生成に特化して設計されています。

モデル特徴

時空間適応圧縮

長編動画コンテンツに対して適応圧縮技術を適用し、処理効率を向上

マルチモーダル理解

動画フレームとテキスト入力を同時処理し、クロスモーダル理解を実現

長編動画処理

長編動画コンテンツの処理に最適化され、文脈の一貫性を保持

モデル能力

動画コンテンツ理解

動画記述生成

クロスモーダル推論

長編動画処理

使用事例

動画コンテンツ分析

動画コンテンツ記述

長編動画に対して詳細な内容記述を生成

一貫性のある動画内容要約を生成可能

動画質問応答

動画内容に関する複雑な質問に回答

複数のベンチマークテストで優れた性能

教育

教育動画分析

教育動画の内容を自動分析し学習ポイントを生成

🚀 LongVU

このリポジトリには、LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understandingで提示されたQwen2 - 7Bベースのモデルが含まれています。

HFデモでモデルを試すことができます。

✨ 主な機能

Property	Details
Datasets	shenxq/OneVision、shenxq/VideoChat2
Base Model	Vision - CAIR/LongVU_Qwen2_7B_img
Pipeline Tag	video - text - to - text

評価結果

タスク	データセット	精度
マルチモーダル	EgoSchema	67.6
マルチモーダル	MLVU	65.4
マルチモーダル	MVBench	66.9
マルチモーダル	VideoMME	60.6

📦 インストール

インストールに関する具体的な手順はREADMEに記載されていません。

💻 使用例

基本的な使用法

# git clone https://github.com/Vision-CAIR/LongVU
import numpy as np
import torch
from longvu.builder import load_pretrained_model
from longvu.constants import (
    DEFAULT_IMAGE_TOKEN,
    IMAGE_TOKEN_INDEX,
)
from longvu.conversation import conv_templates, SeparatorStyle
from longvu.mm_datautils import (
    KeywordsStoppingCriteria,
    process_images,
    tokenizer_image_token,
)
from decord import cpu, VideoReader

tokenizer, model, image_processor, context_len = load_pretrained_model(
    "./checkpoints/longvu_qwen", None, "cambrian_qwen",
)

model.eval()
video_path = "./examples/video1.mp4"
qs = "Describe this video in detail"

vr = VideoReader(video_path, ctx=cpu(0), num_threads=1)
fps = float(vr.get_avg_fps())
frame_indices = np.array([i for i in range(0, len(vr), round(fps),)])
video = []
for frame_index in frame_indices:
    img = vr[frame_index].asnumpy()
    video.append(img)
video = np.stack(video)
image_sizes = [video[0].shape[:2]]
video = process_images(video, image_processor, model.config)
video = [item.unsqueeze(0) for item in video]

qs = DEFAULT_IMAGE_TOKEN + "\n" + qs
conv = conv_templates["qwen"].copy()
conv.append_message(conv.roles[0], qs)
conv.append_message(conv.roles[1], None)
prompt = conv.get_prompt()

input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt").unsqueeze(0).to(model.device)
stop_str = conv.sep if conv.sep_style != SeparatorStyle.TWO else conv.sep2
keywords = [stop_str]
stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)
with torch.inference_mode():
    output_ids = model.generate(
        input_ids,
        images=video,
        image_sizes=image_sizes,
        do_sample=False,
        temperature=0.2,
        max_new_tokens=128,
        use_cache=True,
        stopping_criteria=[stopping_criteria],
    )
pred = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0].strip()

📚 ドキュメント

より詳細な情報については、Githubを参照してください。

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

📚 引用

@article{shen2024longvu,
    title={LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding},
    author={Shen, Xiaoqian and Xiong, Yunyang and Zhao, Changsheng and Wu, Lemeng and Chen, Jun and Zhu, Chenchen and Liu, Zechun and Xiao, Fanyi and Varadarajan, Balakrishnan and Bordes, Florian and Liu, Zhuang and Xu, Hu and J. Kim, Hyunwoo and Soran, Bilge and Krishnamoorthi, Raghuraman and Elhoseiny, Mohamed and Chandra, Vikas},
    journal={arXiv:2410.17434},
    year={2024}
  }