wav2vec2音声認識モデル - オープンソースで無料、データセットに基づく学習により低い単語誤り率での認識を実現

Wav2vec2 2 Bert Large No Adapter Frozen Enc

speech-seq2seqによって開発

このモデルはlibrispeech_asrデータセットを使って学習された音声認識モデルで、評価セットで2.0133の単語誤り率（WER）を達成しました。

ダウンロード数 25

リリース時間 : 3/2/2022

モデル概要

これは自動音声認識（ASR）モデルで、音声をテキストに変換することができます。モデルはlibrispeech_asrデータセットを使って学習され、英語音声認識タスクに適しています。

低単語誤り率

評価セットで2.0133の単語誤り率（WER）を達成し、良好な性能を示しました。

LibriSpeechを基に学習

標準のlibrispeech_asrデータセットを使って学習され、信頼性の高い学習基盤を持っています。

最適化された学習設定

勾配累積、学習率のウォームアップ、混合精度学習などの最適化技術を採用しています。

英語音声認識

音声をテキストに変換

音声文字起こし

オーディオ文字起こし

英語の音声内容をテキストに変換する

単語誤り率2.0133

支援ツール

字幕生成

英語のビデオ内容に自動で字幕を生成する

null

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.171	0.28	500	8.6956	2.0055
5.307	0.56	1000	8.5958	2.0096
5.1449	0.84	1500	10.4208	2.0115
6.1351	1.12	2000	10.2950	2.0059
6.2997	1.4	2500	10.6762	2.0115
6.1394	1.68	3000	10.9190	2.0110
6.1868	1.96	3500	11.0166	2.0112
5.9647	2.24	4000	11.4154	2.0141
6.2202	2.52	4500	11.5837	2.0152
5.9612	2.8	5000	11.7664	2.0133