LongVA-7B-TPOオープンソースビデオ - テキストモデル - 無料デプロイで長時間ビデオ理解タスクを支援

ホーム

Longva 7B TPO

ruili0によって開発

LongVA-7B-TPOはLongVA-7Bを基に時系列選好最適化を施した動画-テキストモデルで、長動画理解タスクで優れた性能を発揮します。

ビデオ生成テキスト

Transformers

オープンソースライセンス:MIT #長動画理解 #時系列選好最適化 #マルチモーダル生成

ダウンロード数 225

リリース時間 : 1/14/2025

モデル概要

このモデルは長動画理解タスクに特化しており、時系列選好最適化技術により長動画ベンチマークテストでの性能が向上しています。

モデル特徴

時系列選好最適化

時系列選好最適化技術により長動画理解能力が大幅に向上

高性能

複数のベンチマークテストで最先端の性能を確立し、ベースモデル比平均2%向上

マルチモーダル処理

画像と動画入力を同時に処理し、対応するテキスト記述を生成可能

モデル能力

長動画コンテンツ理解

動画コンテンツ記述生成

画像コンテンツ記述生成

マルチモーダル推論

使用事例

アクセシビリティサービス

視覚障害者向け動画支援

視覚障害者向けに動画内容を詳細に記述

正確な動画内容記述を提供

動画コンテンツ分析

長動画内容理解

長動画中の時系列情報と内容を分析

長動画中の複雑な内容を正確に理解

🚀 LongVA-7B-TPO

このリポジトリには、論文 Temporal Preference Optimization for Long-form Video Understanding で説明されているモデルが含まれています。

論文 Temporal Preference Optimization for Long-form Video Understanding で紹介された LongVA-7B-TPO は、LongVA-7B をベースに時間的な嗜好に基づいて最適化されています。LongVA-7B-TPO モデルは、さまざまなベンチマークで最先端の性能を発揮し、LongVA-7B と比較して平均 2% の性能向上を示しています。

✨ 主な機能

LongVA-7B-TPO は、長時間のビデオ理解のために時間的な嗜好最適化を行ったモデルです。LongVA-7B をベースに最適化されており、複数のベンチマークで高い性能を発揮します。

📦 インストール

インストールに関する具体的な手順は、github リポジトリを参照してください。

💻 使用例

基本的な使用法

以下のコードを使用して、モデルを使用することができます。詳細な情報については、github リポジトリを参照してください。

from longva.model.builder import load_pretrained_model
from longva.mm_utils import tokenizer_image_token, process_images
from longva.constants import IMAGE_TOKEN_INDEX
from PIL import Image
from decord import VideoReader, cpu
import torch
import numpy as np
# fix seed
torch.manual_seed(0)

model_path = "ruili0/LongVA-TPO"
image_path = "local_demo/assets/lmms-eval.png"
video_path = "local_demo/assets/dc_demo.mp4"
max_frames_num = 16 # you can change this to several thousands so long you GPU memory can handle it :)
gen_kwargs = {"do_sample": True, "temperature": 0.5, "top_p": None, "num_beams": 1, "use_cache": True, "max_new_tokens": 1024}
# you can also set the device map to auto to accomodate more frames
tokenizer, model, image_processor, _ = load_pretrained_model(model_path, None, "llava_qwen", device_map="cuda:0")


#image input
prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<image>\nDescribe the image in details.<|im_end|>\n<|im_start|>assistant\n"
input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt").unsqueeze(0).to(model.device)
image = Image.open(image_path).convert("RGB")
images_tensor = process_images([image], image_processor, model.config).to(model.device, dtype=torch.float16)
with torch.inference_mode():
    output_ids = model.generate(input_ids, images=images_tensor, image_sizes=[image.size], modalities=["image"], **gen_kwargs)
outputs = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(outputs)
print("-"*50)

#video input
prompt = "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n<|im_start|>user\n<image>\nGive a detailed caption of the video as if I am blind.<|im_end|>\n<|im_start|>assistant\n"
input_ids = tokenizer_image_token(prompt, tokenizer, IMAGE_TOKEN_INDEX, return_tensors="pt").unsqueeze(0).to(model.device)
vr = VideoReader(video_path, ctx=cpu(0))
total_frame_num = len(vr)
uniform_sampled_frames = np.linspace(0, total_frame_num - 1, max_frames_num, dtype=int)
frame_idx = uniform_sampled_frames.tolist()
frames = vr.get_batch(frame_idx).asnumpy()
video_tensor = image_processor.preprocess(frames, return_tensors="pt")["pixel_values"].to(model.device, dtype=torch.float16)
with torch.inference_mode():
    output_ids = model.generate(input_ids, images=[video_tensor],  modalities=["video"], **gen_kwargs)
outputs = tokenizer.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(outputs)

📚 ドキュメント

評価結果

モデル	サイズ	LongVideoBench	MLVU	VideoMME (Short)	VideoMME (Medium)	VideoMME (Long)	VideoMME (Average)
LongVA-7B [1]	7B	51.3	58.8	61.3/61.6	50.4/53.6	46.2/47.6	52.6/54.3
LongVA-TPO (ours)	7B	54.2	61.7	63.1/66.6	54.8/55.3	47.4/47.9	55.1/56.6

📄 ライセンス

このプロジェクトでは、特定のデータセットとチェックポイントを使用しており、それぞれの元のライセンスに従う必要があります。ユーザーは、これらの元のライセンスのすべての条件に準拠する必要があり、これにはデータセットの OpenAI 利用規約やベース言語モデルの特定のライセンス (Qwen2 ライセンス) が含まれます。このプロジェクトは、元のライセンスに定められた制約以外に追加の制約を課すものではありません。さらに、ユーザーはデータセットとチェックポイントの使用がすべての適用される法律と規制に準拠していることを確認するように注意する必要があります。

引用

BibTeX

@article{li2025temporal,
      title={Temporal Preference Optimization for Long-Form Video Understanding},
      author={Li, Rui and Wang, Xiaohan and Zhang, Yuhui and Wang, Zeyu and Yeung-Levy, Serena},
      journal={arXiv preprint arXiv:2501.13919},
      year={2025}
    }

参考文献

[1]. Zhang, P., Zhang, K., Li, B., Zeng, G., Yang, J., Zhang, Y., ... & Liu, Z. (2024). Long context transfer from language to vision. arXiv preprint arXiv:2406.16852.