T

Timezero Charades 7B

wwwyyyによって開発
TimeZeroは推論誘導型の大規模視覚言語モデル(LVLM)で、時間的ビデオ位置特定(TVG)タスク向けに設計されており、強化学習手法を用いてビデオ内の自然言語クエリに対応する時間的セグメントを識別します。
ダウンロード数 183
リリース時間 : 3/18/2025

モデル概要

TimeZeroは推論誘導型の大規模視覚言語モデル(LVLM)で、ビデオ内の自然言語クエリに対応する時間的セグメントの識別に優れており、完全に強化学習手法で実現されており、推論過程でビデオと言語の関係を推論できます。

モデル特徴

強化学習トレーニング
完全に強化学習でトレーニングされ、時間的境界予測精度を向上
推論時の論理的推論
推論過程で創発的推論能力を発揮し、セグメント予測を裏付ける思考連鎖を生成
SOTA性能
Charades-STAベンチマークで新記録を樹立

モデル能力

時間的ビデオ位置特定
ビデオ-言語関係推論
時間的セグメント識別

使用事例

ビデオ分析
ビデオセグメント検索
自然言語クエリに基づいてビデオ内の特定セグメントを位置特定
Charades-STAベンチマークで83.3%のR1@0.3精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase