SpaceTimeGPTオープンソース動画記述生成モデル - 空間時間推論と動画イベント記述を無料で実現

ホーム

Spacetimegpt

Neleacによって開発

時空間GPTは、空間的および時間的推論が可能なビデオ記述生成モデルで、ビデオフレームを分析し、ビデオイベントを記述する文を生成できます。

ビデオ生成テキスト

Transformers

英語#ビデオ自己回帰記述 #時空間結合モデリング #マルチフレーム視覚エンコーディング

ダウンロード数 2,877

リリース時間 : 4/21/2023

モデル概要

このモデルは、ビジュアルエンコーダーとテキストデコーダーを組み合わせており、ビデオからキーフレームを抽出し、対応するテキスト記述を生成することができ、ビデオキャプション生成タスクに適しています。

モデル特徴

時空間推論能力

ビデオ内の空間的および時間的情報を同時に分析し、正確なビデオ記述を生成できます。

事前学習モデルの組み合わせ

Timesformerビデオ分類モデルとGPT-2テキスト生成モデルの利点を組み合わせています。

マルチフレーム分析

ビデオから8フレームをサンプリングして分析し、ビデオ内容を包括的に理解します。

モデル能力

ビデオキャプション生成

ビデオ内容理解

時空間情報処理

使用事例

ビデオ内容分析

ビデオキャプション自動生成

ビデオに自動的に記述的なキャプションを生成し、ビデオのアクセシビリティを向上させます。

生成された記述はビデオ内容を正確に反映しています

ビデオ内容理解

ビデオ内容を分析し、主要なイベントとアクションを抽出します。

ビデオ内の主要な活動とシーンを識別できます

🚀 SpaceTimeGPT - ビデオキャプショニングモデル

SpaceTimeGPTは、空間的および時間的推論が可能なビデオ説明生成モデルです。ビデオを入力として受け取り、8枚のフレームをサンプリングして分析し、ビデオ内で起こったイベントの文章説明を自己回帰を用いて生成します。

(部分図は 1, 2, 3 から引用)

📦 データセットとメトリクス

項目	詳細
データセット	HuggingFaceM4/vatex
言語	en
メトリクス	bleu、meteor、rouge
パイプラインタグ	video-text-to-text
推論	true
タグ	video-captioning

📊 モデル指標

モデル名	タスク	データセット	メトリクス	値	検証済み
Caelen	ビデオキャプショニング	VATEX	CIDEr	67.3	false

🔧 アーキテクチャと学習

ビジョンエンコーダ：timesformer-base-finetuned-k600
テキストデコーダ：gpt2

エンコーダとデコーダは、それぞれビデオ分類と文章完成のための事前学習済みの重みを使用して初期化されます。エンコーダ - デコーダのクロスアテンションを使用して、視覚的および言語的な領域を統合します。モデルは、ビデオキャプショニングタスクでエンドツーエンドで微調整されます。詳細は GitHubリポジトリを参照してください。

💻 使用例

基本的な使用法

import av
import numpy as np
import torch
from transformers import AutoImageProcessor, AutoTokenizer, VisionEncoderDecoderModel

device = "cuda" if torch.cuda.is_available() else "cpu"

# load pretrained processor, tokenizer, and model
image_processor = AutoImageProcessor.from_pretrained("MCG-NJU/videomae-base")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = VisionEncoderDecoderModel.from_pretrained("Neleac/timesformer-gpt2-video-captioning").to(device)

# load video
video_path = "never_gonna_give_you_up.mp4"
container = av.open(video_path)

# extract evenly spaced frames from video
seg_len = container.streams.video[0].frames
clip_len = model.config.encoder.num_frames
indices = set(np.linspace(0, seg_len, num=clip_len, endpoint=False).astype(np.int64))
frames = []
container.seek(0)
for i, frame in enumerate(container.decode(video=0)):
    if i in indices:
        frames.append(frame.to_ndarray(format="rgb24"))

# generate caption
gen_kwargs = {
    "min_length": 10, 
    "max_length": 20, 
    "num_beams": 8,
}
pixel_values = image_processor(frames, return_tensors="pt").pixel_values.to(device)
tokens = model.generate(pixel_values, **gen_kwargs)
caption = tokenizer.batch_decode(tokens, skip_special_tokens=True)[0]
print(caption) # A man and a woman are dancing on a stage in front of a mirror.