wav2vec2-xls-r-timit-trainerオープンソース音声認識モデル

Wav2vec2 Xls R Timit Trainer

sshasnainによって開発

facebook/wav2vec2-xls-r-300mモデルをTIMITデータセットでファインチューニングした音声認識モデル

ダウンロード数 29

リリース時間 : 3/2/2022

モデル概要

このモデルは英語音声認識のための自動音声認識(ASR)モデルで、wav2vec2-xls-rアーキテクチャを基にファインチューニングされています

高性能音声認識

TIMITデータセットで1.0の単語誤り率(WER)を達成

大規模モデルベースのファインチューニング

3億パラメータのwav2vec2-xls-r-300mモデルを基にファインチューニング

英語音声対応

英語音声認識タスクに特化して最適化

英語音声からテキストへの変換

高精度音声認識

音声文字起こし

会議議事録

英語の会議録音を自動的に文字記録に変換

高精度な文字起こし結果

音声メモ

英語の音声メモを検索可能なテキストに変換

このモデルは、facebook/wav2vec2-xls-r-300m をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5537	4.03	500	0.6078	1.0
0.5444	8.06	1000	0.4990	0.9994
0.3744	12.1	1500	0.5530	1.0
0.2863	16.13	2000	0.6401	1.0
0.2357	20.16	2500	0.6485	1.0
0.1933	24.19	3000	0.7448	0.9994
0.162	28.22	3500	0.7502	1.0
0.1325	32.26	4000	0.7801	1.0
0.1169	36.29	4500	0.8334	1.0
0.1031	40.32	5000	0.8269	1.0
0.0913	44.35	5500	0.8432	1.0
0.0793	48.39	6000	0.8738	1.0
0.0694	52.42	6500	0.8897	1.0
0.0613	56.45	7000	0.8966	1.0
0.0548	60.48	7500	0.9398	1.0
0.0444	64.51	8000	0.9548	1.0
0.0386	68.55	8500	0.9647	1.0
0.0359	72.58	9000	0.9901	1.0
0.0299	76.61	9500	1.0151	1.0
0.0259	80.64	10000	1.0526	1.0
0.022	84.67	10500	1.0754	1.0
0.0189	88.71	11000	1.0688	1.0
0.0161	92.74	11500	1.0914	1.0
0.0138	96.77	12000	1.1064	1.0