wav2vec2-large-xlsr-53-demo-colabオープンソース音声認識モデル - 無料で高精度な音声を文字に変換する体験

Wav2vec2 Large Xlsr 53 Demo Colab

project2youによって開発

facebook/wav2vec2-large-xlsr-53をベースに、common_voiceデータセットで微調整した音声認識モデル

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

これは音声認識タスクに最適化されたモデルで、wav2vec2アーキテクチャに基づき、common_voiceデータセットで微調整トレーニングを行っています。

効率的な微調整

事前学習されたwav2vec2-large-xlsr-53モデルを基に微調整を行い、ターゲットデータセットでの性能を向上させました。

低単語誤り率

評価セットで1.6299の単語誤り率（WER）を達成し、優れた性能を発揮しました。

混合精度トレーニング

ネイティブAMPを使用して混合精度トレーニングを行い、トレーニング効率を向上させました。

音声認識

自動音声テキスト変換

音声文字起こし

音声を文字に変換

音声内容を文字記録に変換する

単語誤り率が1.6299まで低くなりました。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
8.5034	3.42	400	3.5852	1.0
1.7853	6.83	800	0.7430	1.6774
0.5675	10.26	1200	0.6513	1.6330
0.3761	13.67	1600	0.6208	1.6081
0.2776	17.09	2000	0.6401	1.6081
0.2266	20.51	2400	0.6410	1.6295
0.1949	23.93	2800	0.6910	1.6287
0.1672	27.35	3200	0.6901	1.6299