🚀 TEMPURAモデルカード
TEMPURAは、因果的なイベント関係を推論し、トリミングされていないビデオの細粒度でタイムスタンプ付きの説明を生成するビジョン言語モデルです。このモデルは、ビデオの時間的理解を強化することができます。
🚀 クイックスタート
モデルの推論や学習に関する詳細は以下を参照してください。
✨ 主な機能
- ビデオ内の時間的な位置特定とハイライト検出に直接使用できます。
- ビデオ要約、イベント抽出、質問応答など、時間的なビデオ理解を必要とする様々なアプリケーションに微調整可能です。
📦 インストール
このREADMEにはインストール手順が記載されていないため、このセクションを省略します。
💻 使用例
このREADMEには使用例のコードが記載されていないため、このセクションを省略します。
📚 ドキュメント
モデルの詳細
モデルの説明
TEMPURAは、因果推論と細粒度の時間的セグメンテーションを統合することで、ビデオの時間的理解を強化します。詳細はプロジェクトページを参照してください。
- 開発者: Jen-Hao Cheng, Vivian Wang, Huayu Wang, Huapeng Zhou, Yi-Hao Peng, Hou-I Liu, Hsiang-Wei Huang, Kuang-Ming Chen, Cheng-Yen Yang, Wenhao Chai, Yi-Ling Chen, Vibhav Vineet, Qin Cai, Jenq-Neng Hwang
- モデルタイプ: ビデオ言語モデル
- 言語 (NLP): 英語
- ライセンス: cc-by-4.0
- ファインチューニング元のモデル: Qwen/Qwen2.5-VL-3B-Instruct
モデルのソース
使用方法
直接使用
このモデルは、ビデオ内の時間的な位置特定とハイライト検出に直接使用できます。
下流の使用 (オプション)
このモデルは、ビデオ要約、イベント抽出、質問応答など、時間的なビデオ理解を必要とする様々なアプリケーションに微調整可能です。
想定外の使用
このモデルは、学習データと比べて著しく異なる視覚スタイルや言語のビデオでは性能が低下する可能性があります。
バイアス、リスク、制限
このモデルの性能は、VERデータセットに含まれるバイアスの影響を受けます。これらのバイアスを完全に特徴付けるには、さらなる分析が必要です。
推奨事項
ユーザーは、モデルの出力に潜在的なバイアスがあることを認識する必要があります。
学習の詳細
学習データ
このモデルは、VERデータセット (https://huggingface.co/datasets/andaba/TEMPURA-VER) で学習されました。
学習手順
学習手順には、マスクされたイベント予測と時間的な密なキャプション付きのビデオイベントセグメンテーションが含まれます。詳細はリポジトリ内の学習スクリプトを参照してください。
学習ハイパーパラメータ
速度、サイズ、時間
[詳細情報が必要]
評価
テストデータ、要因、メトリクス
テストデータ
[詳細情報が必要]
要因
[詳細情報が必要]
メトリクス
[詳細情報が必要]
結果
[詳細情報が必要]
要約
[詳細情報が必要]
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
- ハードウェアタイプ: [詳細情報が必要]
- 使用時間: [詳細情報が必要]
- クラウドプロバイダー: [詳細情報が必要]
- コンピュートリージョン: [詳細情報が必要]
- 排出された炭素量: [詳細情報が必要]
技術仕様 (オプション)
モデルアーキテクチャと目的
[詳細情報が必要]
コンピュートインフラストラクチャ
ハードウェア
[詳細情報が必要]
ソフトウェア
[詳細情報が必要]
🔧 技術詳細
このREADMEには十分な技術的詳細が記載されていないため、このセクションを省略します。
📄 ライセンス
このモデルは cc-by-4.0 ライセンスの下で提供されています。
📖 引用
BibTeX:
@article{tempura,
title={TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action},
author={Jen-Hao Cheng and Vivian Wang and Huayu Wang and Huapeng Zhou and Yi-Hao Peng and Hou-I Liu
and Hsiang-Wei Huang and Kuang-Ming Chen and Cheng-Yen Yang
and Wenhao Chai and Yi-Ling Chen and Vibhav Vineet and Qin Cai and Jenq-Neng Hwang},
journal={arXiv preprint arXiv:2505.01583},
year={2025}
}
APA:
Cheng, J.-H., Wang, V., Wang, H., Zhou, H., Peng, Y.-H., Liu, H.-I., Huang, H.-W., Chen, K.-M., Yang, C.-Y., Chai, W., Chen, Y.-L., Vineet, V., Cai, Q., & Hwang, J.-N. (2025). TEMPURA: Temporal Event Masked Prediction and Understanding for Reasoning in Action. arXiv preprint arXiv:2505.01583.
📞 モデルカードの問い合わせ先
Jen-Hao Cheng, andyhci@uw.edu