T

Timesformer Bert Video Captioning

Developed by AlexZigma
基於Timesformer和BERT架構的視頻字幕生成模型,能夠為視頻內容生成描述性字幕。
Downloads 83
Release Time : 7/12/2023

Model Overview

該模型結合了Timesformer的視頻理解能力和BERT的語言生成能力,用於自動生成視頻內容的描述性字幕。

Model Features

多模態理解
結合視覺和語言模型,能夠理解視頻內容並生成相應字幕。
高效訓練
使用Adam優化器和線性學習率調度器,在較短時間內完成訓練。
性能優化
通過多輪訓練不斷優化模型性能,胭脂和藍值指標逐步提升。

Model Capabilities

視頻內容理解
自動字幕生成
多模態數據處理

Use Cases

媒體與娛樂
視頻自動字幕生成
為視頻內容自動生成描述性字幕,提升可訪問性。
胭脂1得分30.0468,藍值4.8298
教育
教學視頻字幕生成
自動為教育視頻生成字幕,輔助學習過程。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase