🚀 TEMPURA模型卡
TEMPURA是一款視覺語言模型,能夠對因果事件關係進行推理,併為未剪輯的視頻生成細粒度、帶時間戳的描述,在視頻理解領域具有重要價值。
🚀 快速開始
推理
請查看推理示例。
訓練
請查看模型訓練腳本。
✨ 主要特性
TEMPURA通過將因果推理與細粒度的時間分割相結合,增強了視頻的時間理解能力。更多詳細信息可在項目頁面上找到。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
模型詳情
模型描述
- 開發者:Jen-Hao Cheng、Vivian Wang、Huayu Wang、Huapeng Zhou、Yi-Hao Peng、Hou-I Liu、Hsiang-Wei Huang、Kuang-Ming Chen、Cheng-Yen Yang、Wenhao Chai、Yi-Ling Chen、Vibhav Vineet、Qin Cai、Jenq-Neng Hwang
- 模型類型:視頻語言模型
- 語言(NLP):英語
- 許可證:cc-by-4.0
- 微調基礎模型:Qwen/Qwen2.5-VL-3B-Instruct
模型來源
使用方式
直接使用
該模型可直接用於視頻中的時間定位和高光檢測。
下游應用(可選)
該模型可針對各種需要視頻時間理解的應用進行微調,如視頻摘要、事件提取和問答。
超出適用範圍的使用
與訓練數據相比,視覺風格或語言差異較大的視頻,該模型的表現可能不佳。
偏差、風險和侷限性
該模型的性能受VER數據集中存在的偏差影響。需要進一步分析以全面描述這些偏差。
建議
用戶應注意模型輸出中可能存在的偏差。
訓練詳情
訓練數據
該模型在VER數據集(https://huggingface.co/datasets/andaba/TEMPURA-VER)上進行訓練。
訓練過程
訓練過程包括掩碼事件預測和帶有時間密集字幕的視頻事件分割。詳情請參閱倉庫中的訓練腳本。
訓練超參數
速度、大小、時間
[需要更多信息]
評估
測試數據、因素和指標
測試數據
[需要更多信息]
因素
[需要更多信息]
指標
[需要更多信息]
結果
[需要更多信息]
總結
環境影響
可以使用Lacoste等人(2019)提出的機器學習影響計算器來估算碳排放。
- 硬件類型:[需要更多信息]
- 使用時長:[需要更多信息]
- 雲服務提供商:[需要更多信息]
- 計算區域:[需要更多信息]
- 碳排放:[需要更多信息]
技術規格(可選)
模型架構和目標
[需要更多信息]
計算基礎設施
硬件
[需要更多信息]
軟件
[需要更多信息]
引用
BibTeX
@article{tempura,
title={TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action},
author={Jen-Hao Cheng and Vivian Wang and Huayu Wang and Huapeng Zhou and Yi-Hao Peng and Hou-I Liu
and Hsiang-Wei Huang and Kuang-Ming Chen and Cheng-Yen Yang
and Wenhao Chai and Yi-Ling Chen and Vibhav Vineet and Qin Cai and Jenq-Neng Hwang},
journal={arXiv preprint arXiv:2505.01583},
year={2025}
}
APA
Cheng, J.-H., Wang, V., Wang, H., Zhou, H., Peng, Y.-H., Liu, H.-I., Huang, H.-W., Chen, K.-M., Yang, C.-Y., Chai, W., Chen, Y.-L., Vineet, V., Cai, Q., & Hwang, J.-N. (2025). TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action. arXiv preprint arXiv:2505.01583.
模型卡聯繫人
Jen-Hao Cheng,andyhci@uw.edu
📄 許可證
本模型使用的許可證為cc-by-4.0。
📋 信息表格
⚠️ 重要提示
- 該模型的性能受VER數據集中存在的偏差影響,需要進一步分析以全面描述這些偏差。
- 與訓練數據相比,視覺風格或語言差異較大的視頻,該模型的表現可能不佳。
💡 使用建議
用戶應注意模型輸出中可能存在的偏差。