timesformer-bert-video-captioning開源視頻字幕生成模型

Timesformer Bert Video Captioning

由AlexZigma開發

基於Timesformer和BERT架構的視頻字幕生成模型，能夠為視頻內容生成描述性字幕。

下載量 83

發布時間 : 7/12/2023

模型概述

該模型結合了Timesformer的視頻理解能力和BERT的語言生成能力，用於自動生成視頻內容的描述性字幕。

多模態理解

結合視覺和語言模型，能夠理解視頻內容並生成相應字幕。

高效訓練

使用Adam優化器和線性學習率調度器，在較短時間內完成訓練。

性能優化

通過多輪訓練不斷優化模型性能，胭脂和藍值指標逐步提升。

視頻內容理解

自動字幕生成

多模態數據處理

媒體與娛樂

視頻自動字幕生成

為視頻內容自動生成描述性字幕，提升可訪問性。

胭脂1得分30.0468，藍值4.8298

教育

教學視頻字幕生成

自動為教育視頻生成字幕，輔助學習過程。

這是一個在None數據集上微調的模型，可用於視頻字幕生成。該模型在評估集上取得了一系列不錯的結果，如Rouge1達到30.0468，Bleu達到4.8298等。

該模型使用了以下評估指標：

此模型在評估集上取得了以下結果：

屬性	詳情
模型名稱	timesformer-bert-video-captioning
評估指標	Rouge、Bleu

訓練過程中使用了以下超參數：

訓練損失	輪數	步數	Bleu	生成長度	驗證損失	Rouge1	Rouge2	Rougel	Rougelsum
2.4961	0.12	200	1.5879	9.5332	1.6548	25.4717	5.11	24.6679	24.6696
1.6561	0.25	400	2.3515	9.5332	1.5339	26.1748	5.9106	25.413	25.3958
1.5772	0.37	600	2.266	9.5332	1.4510	28.6891	6.0431	27.7387	27.8043
1.492	0.49	800	3.6517	9.5332	1.3760	29.0257	7.8515	28.3142	28.3036
1.4736	0.61	1000	3.4866	9.5332	1.3425	27.9774	6.2175	26.7783	26.7207
1.3856	0.74	1200	3.1649	9.5332	1.3118	27.3532	6.5569	26.4964	26.5087
1.3972	0.86	1400	3.5337	9.5332	1.2868	28.233	7.6471	27.3651	27.3354
1.374	0.98	1600	3.5737	9.5332	1.2571	28.8216	7.542	27.9166	27.9353
1.2207	1.1	1800	3.7983	9.5332	1.3362	29.9574	8.1088	28.8866	28.855
1.1861	1.23	2000	3.6521	9.5332	1.3295	30.072	7.7799	28.8417	28.864
1.1173	1.35	2200	3.9784	9.5332	1.3335	29.736	7.9661	28.6877	28.6974
1.1255	1.47	2400	4.3021	9.5332	1.3097	29.8176	8.4656	28.958	28.9571
1.0909	1.6	2600	1.3095	30.0233	8.4896	29.2562	29.2375	4.4782	9.5332
1.1205	1.72	2800	1.2992	29.7164	8.007	28.5027	28.5018	4.44	9.5332
1.1069	1.84	3000	1.2830	29.851	8.4312	28.8139	28.8205	4.6065	9.5332
1.076	1.96	3200	1.2821	30.0468	8.4998	29.0632	29.0231	4.8298	9.5332