SpaceTimeGPT开源视频描述生成模型 - 免费实现空间时间推理与视频事件描述

首页

Spacetimegpt

由 Neleac 开发

时空GPT是一个能够进行空间和时间推理的视频描述生成模型，能够分析视频帧并生成描述视频事件的句子。

视频生成文本

Transformers

英语#视频自回归描述 #时空联合建模 #多帧视觉编码

下载量 2,877

发布时间 : 4/21/2023

模型简介

该模型结合了视觉编码器和文本解码器，能够从视频中提取关键帧并生成相应的文字描述，适用于视频字幕生成任务。

模型特点

时空推理能力

能够同时分析视频中的空间和时间信息，生成准确的视频描述。

预训练模型结合

结合了Timesformer视频分类模型和GPT-2文本生成模型的优势。

多帧分析

从视频中采样并分析八帧画面，全面理解视频内容。

模型能力

视频字幕生成

视频内容理解

时空信息处理

使用案例

视频内容分析

视频字幕自动生成

为视频自动生成描述性字幕，提高视频可访问性。

生成的描述准确反映视频内容

视频内容理解

分析视频内容，提取关键事件和动作。

能够识别视频中的主要活动和场景

🚀 SpaceTimeGPT - 视频字幕生成模型

SpaceTimeGPT 是一个能够进行空间和时间推理的视频描述生成模型。它可以对输入的视频进行分析，并输出描述视频中事件的句子。

🔍 项目信息

属性	详情
数据集	HuggingFaceM4/vatex
语言	英语
评估指标	BLEU、METEOR、ROUGE
任务类型	视频文本到文本
推理功能	支持
标签	视频字幕生成

📊 模型评估结果

模型名称	任务类型	数据集	评估指标	值	验证状态
Caelen	视频字幕生成	VATEX	CIDEr	67.3	未验证

🚀 快速开始

(部分图表来自 1, 2, 3)

SpaceTimeGPT 是一个能够进行空间和时间推理的视频描述生成模型。给定一个视频，模型会采样并分析八帧图像，然后通过自回归生成视频中所发生事件的句子描述。

🏗️ 架构与训练

视觉编码器：timesformer-base-finetuned-k600
文本解码器：gpt2

编码器和解码器分别使用预训练的视频分类和句子补全权重进行初始化。通过编码器 - 解码器交叉注意力机制来统一视觉和语言领域。该模型在视频字幕生成任务上进行了端到端的微调。更多详细信息请参考 GitHub 仓库。

💻 使用示例

基础用法

import av
import numpy as np
import torch
from transformers import AutoImageProcessor, AutoTokenizer, VisionEncoderDecoderModel

device = "cuda" if torch.cuda.is_available() else "cpu"

# 加载预训练的处理器、分词器和模型
image_processor = AutoImageProcessor.from_pretrained("MCG-NJU/videomae-base")
tokenizer = AutoTokenizer.from_pretrained("gpt2")
model = VisionEncoderDecoderModel.from_pretrained("Neleac/timesformer-gpt2-video-captioning").to(device)

# 加载视频
video_path = "never_gonna_give_you_up.mp4"
container = av.open(video_path)

# 从视频中提取均匀间隔的帧
seg_len = container.streams.video[0].frames
clip_len = model.config.encoder.num_frames
indices = set(np.linspace(0, seg_len, num=clip_len, endpoint=False).astype(np.int64))
frames = []
container.seek(0)
for i, frame in enumerate(container.decode(video=0)):
    if i in indices:
        frames.append(frame.to_ndarray(format="rgb24"))

# 生成字幕
gen_kwargs = {
    "min_length": 10, 
    "max_length": 20, 
    "num_beams": 8,
}
pixel_values = image_processor(frames, return_tensors="pt").pixel_values.to(device)
tokens = model.generate(pixel_values, **gen_kwargs)
caption = tokenizer.batch_decode(tokens, skip_special_tokens=True)[0]
print(caption) # 一名男子和一名女子在镜子前的舞台上跳舞。