xlsr-englishオープンソース英語音声認識モデル - 無料でデプロイし、英語音声を高精度で認識する

Xlsr English

ashesicsis1によって開発

facebook/wav2vec2-xls-r-300mをlibrispeech_asrデータセットでファインチューニングした英語音声認識モデル

ダウンロード数 18

リリース時間 : 5/29/2022

モデル概要

このモデルは英語音声認識タスク向けに最適化されたXLS-Rアーキテクチャモデルで、LibriSpeechデータセットで低い単語誤り率を達成

低単語誤り率

評価データセットで0.1451の単語誤り率を達成し、優れた性能を発揮

XLS-Rアーキテクチャ採用

facebookのwav2vec2-xls-r-300m事前学習モデルをベースに使用

精密なチューニング

30エポックのトレーニングと線形学習率スケジューリングによる最適化

英語音声認識

音声からテキストへの変換

大規模音声データ処理

音声文字起こし

オーディオブック文字起こし

英語オーディオブックを自動的にテキストに変換

高精度な文字起こし結果

会議議事録

英語会議のテキスト記録を自動生成

支援技術

聴覚支援

聴覚障害者向けにリアルタイム音声テキスト変換サービスを提供

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.2453	2.37	400	0.5789	0.4447
0.3736	4.73	800	0.3737	0.2850
0.1712	7.1	1200	0.3038	0.2136
0.117	9.47	1600	0.3016	0.2072
0.0897	11.83	2000	0.3158	0.1920
0.074	14.2	2400	0.3137	0.1831
0.0595	16.57	2800	0.2967	0.1745
0.0493	18.93	3200	0.3192	0.1670
0.0413	21.3	3600	0.3176	0.1644
0.0322	23.67	4000	0.3079	0.1598
0.0296	26.04	4400	0.2978	0.1511
0.0235	28.4	4800	0.3098	0.1451