wav2vec2-large-xlsr-53-demo-colabオープンソース音声認識モデル - 堅牢な音声イベント認識を精度よく行う

Wav2vec2 Large Xlsr 53 Demo Colab

emreによって開発

このモデルは、facebook/wav2vec2-large-xlsr-53をcommon_voiceデータセットで微調整した音声認識モデルで、主にロバスト音声イベント認識に使用されます。

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

これはwav2vec2アーキテクチャに基づく音声認識モデルで、微調整後はcommon_voiceデータセットに適用でき、音声をテキストに変換できます。

wav2vec2アーキテクチャに基づく

facebookのwav2vec2-large-xlsr-53をベースモデルとして採用し、強力な音声特徴抽出能力を持っています。

Common Voiceデータセットでの微調整

Common Voiceデータセットで微調整を行い、モデルのロバスト性と適応性を強化しました。

比較的低い単語誤り率

評価セットで0.4834の単語誤り率(WER)を達成し、良好な性能を示しました。

音声認識

音声をテキストに変換

ロバスト音声イベント検出

音声書き起こし

音声転写

音声内容を自動的にテキスト形式に変換する

単語誤り率0.4834

音声アシスタント

音声指令認識

ユーザーの音声指令を認識し、実行可能なコマンドに変換する

トレーニング損失	エポック数	ステップ数	検証損失	字錯率（Wer）
5.1516	4.21	400	2.7673	1.0
0.9134	8.42	800	0.4618	0.6418
0.3273	12.63	1200	0.4188	0.5535
0.2252	16.84	1600	0.4144	0.5232
0.1692	21.05	2000	0.3995	0.5030
0.1355	25.26	2400	0.4073	0.4920
0.1172	29.47	2800	0.3966	0.4834