wav2vec2-base-libir-zenodoオープンソース音声認識モデル - 自動音声認識タスクに無料で使用可能

Wav2vec2 Base Libir Zenodo

samantharhayによって開発

このモデルはfacebook/wav2vec2-base-960hを未知のデータセットでファインチューニングした音声認識モデルで、主に自動音声認識タスクに使用されます。

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

wav2vec2-base-libir-zenodoはwav2vec2アーキテクチャに基づく音声認識モデルで、音声をテキストに変換するためにファインチューニングされています。

wav2vec2アーキテクチャベース

facebook/wav2vec2-base-960hをベースモデルとして採用し、強力な音声特徴抽出能力を有しています

ファインチューニング最適化

特定のデータセットで30エポックのファインチューニング訓練を行い、音声認識性能を最適化しました

混合精度訓練

ネイティブAMP混合精度訓練技術を使用し、訓練効率を向上させました

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

会議録音を自動的に文字記録に変換

音声メモ

音声メモを検索可能なテキストに変換

このモデルは、不明なデータセットで facebook/wav2vec2-base-960h をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用でき、特定のデータセットでのファインチューニングにより、一定の性能を発揮します。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.053	1.0	31	3.1494	0.7345
2.9742	2.0	62	3.0527	0.7257
2.9139	3.0	93	2.8808	0.7257
2.6586	4.0	124	2.6648	0.6726
2.7117	5.0	155	2.4695	0.6372
2.5173	6.0	186	2.3087	0.6195
2.3665	7.0	217	2.2745	0.6018
2.1276	8.0	248	2.2180	0.5752
2.1624	9.0	279	2.1311	0.5752
2.0312	10.0	310	2.0358	0.5575
2.0652	11.0	341	1.9146	0.5310
1.7963	12.0	372	1.8346	0.5221
1.6811	13.0	403	1.8351	0.5398
1.5929	14.0	434	1.8256	0.4779
1.6644	15.0	465	1.7572	0.4779
1.5411	16.0	496	1.8740	0.4779
1.4027	17.0	527	1.5143	0.4779
1.2634	18.0	558	1.3864	0.4867
1.1053	19.0	589	1.3192	0.4425
1.0517	20.0	620	1.4705	0.4602
1.1033	21.0	651	1.6006	0.4956
0.9992	22.0	682	1.4748	0.5044
0.8987	23.0	713	1.3544	0.4867
0.9656	24.0	744	1.2673	0.4336
0.952	25.0	775	1.3955	0.4071
0.8507	26.0	806	1.3520	0.4425
0.8269	27.0	837	1.8992	0.4336
0.7255	28.0	868	1.9850	0.4425
0.8269	29.0	899	3.0089	0.4425
0.6178	30.0	930	1.4238	0.4336