🚀 TEMPURA模型卡
TEMPURA是一款视觉语言模型,能够对因果事件关系进行推理,并为未剪辑的视频生成细粒度、带时间戳的描述,在视频理解领域具有重要价值。
🚀 快速开始
推理
请查看推理示例。
训练
请查看模型训练脚本。
✨ 主要特性
TEMPURA通过将因果推理与细粒度的时间分割相结合,增强了视频的时间理解能力。更多详细信息可在项目页面上找到。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型详情
模型描述
- 开发者:Jen-Hao Cheng、Vivian Wang、Huayu Wang、Huapeng Zhou、Yi-Hao Peng、Hou-I Liu、Hsiang-Wei Huang、Kuang-Ming Chen、Cheng-Yen Yang、Wenhao Chai、Yi-Ling Chen、Vibhav Vineet、Qin Cai、Jenq-Neng Hwang
- 模型类型:视频语言模型
- 语言(NLP):英语
- 许可证:cc-by-4.0
- 微调基础模型:Qwen/Qwen2.5-VL-3B-Instruct
模型来源
使用方式
直接使用
该模型可直接用于视频中的时间定位和高光检测。
下游应用(可选)
该模型可针对各种需要视频时间理解的应用进行微调,如视频摘要、事件提取和问答。
超出适用范围的使用
与训练数据相比,视觉风格或语言差异较大的视频,该模型的表现可能不佳。
偏差、风险和局限性
该模型的性能受VER数据集中存在的偏差影响。需要进一步分析以全面描述这些偏差。
建议
用户应注意模型输出中可能存在的偏差。
训练详情
训练数据
该模型在VER数据集(https://huggingface.co/datasets/andaba/TEMPURA-VER)上进行训练。
训练过程
训练过程包括掩码事件预测和带有时间密集字幕的视频事件分割。详情请参阅仓库中的训练脚本。
训练超参数
速度、大小、时间
[需要更多信息]
评估
测试数据、因素和指标
测试数据
[需要更多信息]
因素
[需要更多信息]
指标
[需要更多信息]
结果
[需要更多信息]
总结
环境影响
可以使用Lacoste等人(2019)提出的机器学习影响计算器来估算碳排放。
- 硬件类型:[需要更多信息]
- 使用时长:[需要更多信息]
- 云服务提供商:[需要更多信息]
- 计算区域:[需要更多信息]
- 碳排放:[需要更多信息]
技术规格(可选)
模型架构和目标
[需要更多信息]
计算基础设施
硬件
[需要更多信息]
软件
[需要更多信息]
引用
BibTeX
@article{tempura,
title={TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action},
author={Jen-Hao Cheng and Vivian Wang and Huayu Wang and Huapeng Zhou and Yi-Hao Peng and Hou-I Liu
and Hsiang-Wei Huang and Kuang-Ming Chen and Cheng-Yen Yang
and Wenhao Chai and Yi-Ling Chen and Vibhav Vineet and Qin Cai and Jenq-Neng Hwang},
journal={arXiv preprint arXiv:2505.01583},
year={2025}
}
APA
Cheng, J.-H., Wang, V., Wang, H., Zhou, H., Peng, Y.-H., Liu, H.-I., Huang, H.-W., Chen, K.-M., Yang, C.-Y., Chai, W., Chen, Y.-L., Vineet, V., Cai, Q., & Hwang, J.-N. (2025). TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action. arXiv preprint arXiv:2505.01583.
模型卡联系人
Jen-Hao Cheng,andyhci@uw.edu
📄 许可证
本模型使用的许可证为cc-by-4.0。
📋 信息表格
⚠️ 重要提示
- 该模型的性能受VER数据集中存在的偏差影响,需要进一步分析以全面描述这些偏差。
- 与训练数据相比,视觉风格或语言差异较大的视频,该模型的表现可能不佳。
💡 使用建议
用户应注意模型输出中可能存在的偏差。