TimeZero-ActivityNet-7B开源视觉语言模型 - 实现时间视频定位与动态关系分析

首页

Timezero ActivityNet 7B

由 wwwyyy 开发

TimeZero是一种基于推理引导的大规模视觉语言模型（LVLM），专为时间视频定位（TVG）任务设计，通过强化学习方法实现动态视频-语言关系分析。

视频生成文本

Transformers

#视频时间定位 #强化学习训练 #动态推理能力

下载量 142

发布时间 : 3/18/2025

模型简介

TimeZero擅长识别视频中与自然语言查询对应的时间片段，完全通过强化学习方法实现，使模型能在推理过程中动态分析视频-语言关系。

模型特点

强化学习训练

全程采用强化学习策略，显著提升时间边界预测精度

实时推理能力

在推理过程中展现思维链推理能力，为片段预测提供逻辑依据

顶尖性能表现

在Charades-STA基准测试中刷新纪录

模型能力

视频时间片段定位

自然语言查询理解

视频-语言关系分析

动态推理能力

使用案例

视频内容分析

视频片段检索

根据自然语言描述定位视频中的特定片段

在Charades-STA基准测试中达到83.3%的R1@0.3准确率

视频内容理解

分析视频内容与文本查询的对应关系

在ActivityNet数据集上实现68.6%的R1@0.3准确率

🚀 TimeZero：基于推理引导大视觉语言模型的视频时间定位

TimeZero是一款用于视频时间定位（TVG）的推理引导大视觉语言模型（LVLM），能够精准识别视频中与自然语言查询相对应的时间片段。该模型完全通过强化学习方法，在推理过程中对视频与语言的关系进行推理，从而实现精准定位。

项目链接

更新日志

2025-03-17：TimeZero初始版本发布！代码和评估脚本现已开放。
2025-03-17：TimeZero在Charades-STA数据集上达到了当前最优性能！

✨ 主要特性

强化学习训练：TimeZero完全采用强化学习进行训练，有效提升了生成准确时间边界的能力。
推理时推理能力：模型在推理过程中展现出新兴的推理能力，能够生成思维链来证明其片段预测的合理性。
最优性能：TimeZero在Charades-STA基准测试中创下了新的最优成绩。

示例展示

训练可视化

0a466a4bca3bb8d9b2a2af0f15890b4

📦 安装指南

conda create -n timezero python=3.11
conda env create -f environment.yml
conda activate timezero

💻 使用示例

训练步骤

1. 数据预处理

下载数据集 Charades-STA、ActivityNet。在训练前，需要对视频数据进行预处理：

bash preprocess_video.sh

同时，需指定Charades-STA数据集的路径（视频文件、注释等）。

2. GRPO训练

cd scripts
bash run_grpo_video.sh

run_grpo_video.sh脚本内容如下：

#!/bin/bash

export DEBUG_MODE="false"  # 训练期间设置为 "true" 可进行详细日志记录。
export LOG_PATH="./debug_log.txt"

torchrun --nproc_per_node="4" \
--nnodes="1" \
--node_rank="0" \
--master_addr="127.0.0.1" \
--master_port="12361" \
src/open_r1/grpo_video.py \
--deepspeed scripts/zero3_offload.json \
--output_dir $OUTDIR \
--model_name_or_path mllm/Qwen2.5-VL-7B-Instruct \
--preprocessed_data_path ./Charades_preprocessed_data_maxpix_3584 \
--train_data_path ./Charades/charades_annotation/train.json \
--eval_data_path ./Charades/charades_annotation/val.json \
--video_folder ./Charades/Charades_v1 \
--dataset_name xxx \
--max_prompt_length 8192 \
--max_completion_length 1024 \
--num_generations 8 \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 2 \
--logging_steps 1 \
--bf16 \
--torch_dtype bfloat16 \
--data_seed 42 \
--gradient_checkpointing true \
--attn_implementation flash_attention_2 \
--num_train_epochs 2 \
--run_name $WANDB_NAME \
--report_to wandb \
--save_steps 50 \
--save_only_model true

评估步骤

训练完成后，可使用以下命令评估模型性能：

bash scripts/evaluate.sh # 使用 evaluate.sh 进行评估。

evaluate.sh脚本内容如下：

python evaluate.py --model_base <path_to_your_trained_model> --dataset <charades or activitynet>

评估脚本 (evaluate.py) 需要实现加载模型、处理测试数据并计算相关指标（R1@0.3、R1@0.5、R1@0.7等）的功能。

📚 详细文档

实验结果

Charades-STA（微调后）

TimeZero大幅超越了之前的最优方法。

方法	类型	R1@0.3	R1@0.5	R1@0.7
EaTR（VLP最优）	VLP	-	68.4	44.9
TimeSuite（LVLM最优）	SFT	79.4	67.1	43.0
TimeZero（本方法）	RL	83.3	72.5	47.9

ActivityNet（微调后）

TimeZero超越了之前的最优LVLM模型。

方法	类型	R1@0.3	R1@0.5	R1@0.7
EaTR（VLP最优）	VLP	-	58.18	37.64
TRACE（LVLM最优）	SFT	54.0	37.7	24.0
TimeZero（本方法）	RL	68.6	47.3	26.9

致谢

感谢以下项目的作者所做出的贡献：

引用

@article{wang2025timezero,
  title={TimeZero: Temporal Video Grounding with Reasoning-Guided LVLM},
  author={Wang, Ye and Xu, Boshen and Yue, Zihao and Xiao, Zihan and Wang, Ziheng and Zhang, Liang and Yang, Dingyi and Wang, Wenxuan and Jin, Qin},
  booktitle={arxiv},
  year={2025}
}