wav2vec2 - 2 - gpt2 - 正則化オープンソースASRモデル - 英語の音声を無料で正確にテキストに変換

Wav2vec2 2 Gpt2 Regularisation

sanchit-gandhiによって開発

これはLibriSpeechデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。

ダウンロード数 20

リリース時間 : 3/17/2022

モデル概要

このモデルはLibriSpeech ASRデータセットで一から訓練された自動音声認識モデルで、主に英語音声からテキストへの変換タスクに使用されます。

高精度

LibriSpeech評価セットで低い単語誤り率(WER)を達成

エンドツーエンド訓練

モデルは一から訓練されており、事前訓練モデルに依存しない

最適化訓練

Adamオプティマイザーと線形学習率スケジューラーを使用して訓練

英語音声認識

連続音声からテキストへの変換

大規模音声データ処理

音声文字起こし

オーディオブック文字起こし

英語オーディオブックを自動的にテキストに変換

単語誤り率は約0.9977

会議議事録

英語会議内容を自動記録

音声アシスタント

音声コマンド認識

英語音声コマンドを認識

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5506	2.8	2500	4.4928	1.8772
0.5145	5.61	5000	1.8942	1.1063
0.2736	8.41	7500	1.6550	1.0372
0.0807	11.21	10000	1.7601	1.0004
0.0439	14.01	12500	1.8014	1.0022
0.043	16.82	15000	1.8534	1.0097
0.0434	19.62	17500	1.8529	0.9977