wav2vec2-2-roberta-largeモデル - オープンソースで無料の音声からテキストへの変換、LibriSpeechデータセットを基に訓練

Wav2vec2 2 Roberta Large No Adapter Frozen Enc

speech-seq2seqによって開発

このモデルはLibriSpeech ASRデータセットで訓練された音声認識モデルで、音声をテキストに変換できます。

ダウンロード数 27

リリース時間 : 3/2/2022

モデル概要

これは自動音声認識(ASR)モデルで、英語音声からテキストへの変換タスク専用です。モデルはLibriSpeechデータセットで訓練されており、明瞭な発音の英語音声認識シナリオに適しています。

高精度

LibriSpeech評価セットで1.0008の単語誤り率(WER)を達成

最適化訓練

Adamオプティマイザーと線形学習率スケジューラーを使用して訓練

混合精度訓練

ネイティブAMPを使用した混合精度訓練により、訓練効率を向上

英語音声認識

音声からテキストへの変換

音声文字起こし

オーディオブック文字起こし

英語オーディオブックをテキスト形式に変換

会議議事録

英語会議録音を文字記録に変換

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
6.4796	0.28	500	10.7690	1.0
6.2294	0.56	1000	10.5096	1.0
5.7859	0.84	1500	13.7547	1.0017
6.0219	1.12	2000	15.4966	1.0007
5.9142	1.4	2500	18.5919	1.0
5.6761	1.68	3000	16.9601	1.0
5.73	1.96	3500	18.9857	1.0004
4.9793	2.24	4000	18.3202	1.0007
5.2332	2.52	4500	19.5416	1.0008
4.9792	2.8	5000	20.5959	1.0008