T

Timesformer Bert Video Captioning

由AlexZigma開發
基於Timesformer和BERT架構的視頻字幕生成模型,能夠為視頻內容生成描述性字幕。
下載量 83
發布時間 : 7/12/2023

模型概述

該模型結合了Timesformer的視頻理解能力和BERT的語言生成能力,用於自動生成視頻內容的描述性字幕。

模型特點

多模態理解
結合視覺和語言模型,能夠理解視頻內容並生成相應字幕。
高效訓練
使用Adam優化器和線性學習率調度器,在較短時間內完成訓練。
性能優化
通過多輪訓練不斷優化模型性能,胭脂和藍值指標逐步提升。

模型能力

視頻內容理解
自動字幕生成
多模態數據處理

使用案例

媒體與娛樂
視頻自動字幕生成
為視頻內容自動生成描述性字幕,提升可訪問性。
胭脂1得分30.0468,藍值4.8298
教育
教學視頻字幕生成
自動為教育視頻生成字幕,輔助學習過程。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase