SpaceTimeGPT開源視頻描述生成模型 - 免費實現空間時間推理與視頻事件描述

首頁

Spacetimegpt

由Neleac開發

時空GPT是一個能夠進行空間和時間推理的視頻描述生成模型，能夠分析視頻幀並生成描述視頻事件的句子。

視頻生成文本

Transformers

英語#視頻自迴歸描述 #時空聯合建模 #多幀視覺編碼

下載量 2,877

發布時間 : 4/21/2023

模型概述

該模型結合了視覺編碼器和文本解碼器，能夠從視頻中提取關鍵幀並生成相應的文字描述，適用於視頻字幕生成任務。

模型特點

時空推理能力

能夠同時分析視頻中的空間和時間信息，生成準確的視頻描述。

預訓練模型結合

結合了Timesformer視頻分類模型和GPT-2文本生成模型的優勢。

多幀分析

從視頻中採樣並分析八幀畫面，全面理解視頻內容。

模型能力

視頻字幕生成

視頻內容理解

時空信息處理

使用案例

視頻內容分析

視頻字幕自動生成

為視頻自動生成描述性字幕，提高視頻可訪問性。

生成的描述準確反映視頻內容

視頻內容理解

分析視頻內容，提取關鍵事件和動作。

能夠識別視頻中的主要活動和場景

🚀 SpaceTimeGPT - 視頻字幕生成模型

SpaceTimeGPT 是一個能夠進行空間和時間推理的視頻描述生成模型。它可以對輸入的視頻進行分析，並輸出描述視頻中事件的句子。

🔍 項目信息

屬性	詳情
數據集	HuggingFaceM4/vatex
語言	英語
評估指標	BLEU、METEOR、ROUGE
任務類型	視頻文本到文本
推理功能	支持
標籤	視頻字幕生成

📊 模型評估結果

模型名稱	任務類型	數據集	評估指標	值	驗證狀態
Caelen	視頻字幕生成	VATEX	CIDEr	67.3	未驗證

🚀 快速開始

(部分圖表來自 1, 2, 3)

SpaceTimeGPT 是一個能夠進行空間和時間推理的視頻描述生成模型。給定一個視頻，模型會採樣並分析八幀圖像，然後通過自迴歸生成視頻中所發生事件的句子描述。

🏗️ 架構與訓練

視覺編碼器：timesformer-base-finetuned-k600
文本解碼器：gpt2

編碼器和解碼器分別使用預訓練的視頻分類和句子補全權重進行初始化。通過編碼器 - 解碼器交叉注意力機制來統一視覺和語言領域。該模型在視頻字幕生成任務上進行了端到端的微調。更多詳細信息請參考 GitHub 倉庫。

💻 使用示例

基礎用法

import av
import numpy as np
import torch
from transformers import AutoImageProcessor, AutoTokenizer, VisionEncoderDecoderModel

device = "cuda" if torch.cuda.is_available() else "cpu"

# 加載預訓練的處理器、分詞器和模型
image_processor = AutoImageProcessor.from_pretrained("MCG-NJU/videomae-base")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = VisionEncoderDecoderModel.from_pretrained("Neleac/timesformer-gpt2-video-captioning").to(device)

# 加載視頻
video_path = "never_gonna_give_you_up.mp4"
container = av.open(video_path)

# 從視頻中提取均勻間隔的幀
seg_len = container.streams.video[0].frames
clip_len = model.config.encoder.num_frames
indices = set(np.linspace(0, seg_len, num=clip_len, endpoint=False).astype(np.int64))
frames = []
container.seek(0)
for i, frame in enumerate(container.decode(video=0)):
    if i in indices:
        frames.append(frame.to_ndarray(format="rgb24"))

# 生成字幕
gen_kwargs = {
    "min_length": 10, 
    "max_length": 20, 
    "num_beams": 8,
}
pixel_values = image_processor(frames, return_tensors="pt").pixel_values.to(device)
tokens = model.generate(pixel_values, **gen_kwargs)
caption = tokenizer.batch_decode(tokens, skip_special_tokens=True)[0]
print(caption) # 一名男子和一名女子在鏡子前的舞臺上跳舞。