xlsr - wav2vec2 - 1オープンソース音声認識モデル - 無料で多言語の音声をテキストに変換するタスクをサポート

Xlsr Wav2vec2 1

chrisvinsenによって開発

facebook/wav2vec2-large-xlsr-53をファインチューニングした音声認識モデルで、多言語の音声からテキストへの変換タスクをサポート

ダウンロード数 20

リリース時間 : 5/24/2022

モデル概要

このモデルはwav2vec2-large-xlsr-53のファインチューニング版で、音声認識タスクに特化しており、音声をテキストに変換可能

多言語対応

XLSRアーキテクチャに基づき、複数言語の音声認識をサポート可能

効率的なトレーニング

混合精度トレーニングと勾配蓄積技術を使用してトレーニング効率を向上

継続的な最適化

30エポックのトレーニングにより、単語誤り率を1.0から0.4412に改善

音声からテキストへの変換

多言語音声認識

音声文字起こし

会議議事録

会議の録音を自動的に文字起こし

単語誤り率0.4412

音声アシスタント

音声アシスタントの音声認識コンポーネントとして使用

このモデルは、facebook/wav2vec2-large-xlsr-53 をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.517	1.38	400	3.0431	1.0
1.8387	2.76	800	0.6552	0.7263
0.5971	4.14	1200	0.5308	0.5885
0.4153	5.52	1600	0.4667	0.5551
0.3388	6.9	2000	0.4428	0.5260
0.2803	8.28	2400	0.4915	0.5164
0.2613	9.65	2800	0.4904	0.4988
0.237	11.03	3200	0.4998	0.5075
0.2175	12.41	3600	0.4905	0.4983
0.1969	13.79	4000	0.4818	0.4877
0.1932	15.17	4400	0.5578	0.5006
0.1782	16.55	4800	0.4981	0.4949
0.1655	17.93	5200	0.4978	0.4940
0.1505	19.31	5600	0.5360	0.4896
0.1362	20.69	6000	0.5441	0.4709
0.1246	22.07	6400	0.5358	0.4650
0.1117	23.45	6800	0.5513	0.4716
0.107	24.83	7200	0.5344	0.4578
0.0963	26.21	7600	0.5073	0.4452
0.0846	27.59	8000	0.5335	0.4497
0.0799	28.96	8400	0.5437	0.4412