wav2vec2-large-xls-r-300m-pt-colabオープンソース音声認識モデル

Wav2vec2 Large Xls R 300m Pt Colab

tonyalvesによって開発

facebook/wav2vec2-xls-r-300mをcommon_voiceデータセットで微調整した音声認識モデル

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルは音声認識タスク用の事前学習モデルで、微調整後に音声をテキストに変換できます。

効率的な音声認識

wav2vec2アーキテクチャに基づき、音声を効率的かつ正確にテキストに変換可能

大規模事前学習

3億パラメータの大規模事前学習モデルで、強力な特徴抽出能力を有する

微調整最適化

common_voiceデータセットで微調整され、認識性能が最適化されている

音声認識

音声からテキストへ

自動音声書き起こし

音声書き起こし

会議議事録

会議録音を自動的に文字記録に変換

単語誤り率約30%

字幕生成

動画コンテンツに自動的に字幕を生成

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識

このモデルは、common_voiceデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

必要な情報が追加される予定です。

必要な情報が追加される予定です。

必要な情報が追加される予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
4.591	1.15	400	0.9128	0.6517
0.5049	2.31	800	0.4596	0.4437
0.2871	3.46	1200	0.3964	0.3905
0.2077	4.61	1600	0.3958	0.3744
0.1695	5.76	2000	0.4040	0.3720
0.1478	6.92	2400	0.3866	0.3651
0.1282	8.07	2800	0.3987	0.3674
0.1134	9.22	3200	0.4128	0.3688
0.1048	10.37	3600	0.3928	0.3561
0.0938	11.53	4000	0.4048	0.3619
0.0848	12.68	4400	0.4229	0.3555
0.0798	13.83	4800	0.3974	0.3468
0.0688	14.98	5200	0.3870	0.3503
0.0658	16.14	5600	0.3875	0.3351
0.061	17.29	6000	0.4133	0.3417
0.0569	18.44	6400	0.3915	0.3414
0.0526	19.6	6800	0.3957	0.3231
0.0468	20.75	7200	0.4110	0.3301
0.0407	21.9	7600	0.3866	0.3186
0.0384	23.05	8000	0.3976	0.3193
0.0363	24.21	8400	0.3910	0.3177
0.0313	25.36	8800	0.3656	0.3109
0.0293	26.51	9200	0.3712	0.3092
0.0277	27.66	9600	0.3613	0.3054
0.0249	28.82	10000	0.3783	0.3015
0.0234	29.97	10400	0.3637	0.2982