wav2vec2-xls-r-300m-englishオープンソース音声認識モデル - 英語の音声から文字への高精度な変換を実現

Wav2vec2 Xls R 300m English

vitouphyによって開発

XLS-R-300Mはfacebook/wav2vec2-xls-r-300mをlibrispeech_asrデータセットでファインチューニングした英語自動音声認識モデルで、LibriSpeechテストセットで12.29%の単語誤り率を達成しました。

音声認識

Transformers

英語オープンソースライセンス:Apache-2.0 #英語音声認識 #低単語誤り率 #多様なシナリオへの適応

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルは英語自動音声認識(ASR)モデルで、英語音声からテキストへの変換タスクに特化して最適化されています。

モデル特徴

複数データセットでの優れた性能

LibriSpeech、Common Voice、ロバスト音声イベントなど複数のデータセットで評価され、安定した性能を示しています。

効率的なトレーニング

勾配蓄積や混合精度トレーニングなどの技術を採用し、トレーニング効率を向上させています。

低単語誤り率

LibriSpeechクリーンテストセットで12.29%の単語誤り率を達成し、優れた性能を発揮しています。

モデル能力

英語音声認識

音声からテキストへの変換

長い音声処理

使用事例

音声文字起こし

オーディオブックの文字起こし

オーディオブックの内容をテキストに変換

LibriSpeechテストセットで単語誤り率12.29%

音声アシスタント

音声コマンド認識

ユーザーの音声コマンドを認識・理解

ロバスト音声イベントテストセットで単語誤り率38.8%

🚀 XLS - R - 300M - 英語

このモデルは、自動音声認識タスクに特化したモデルで、librispeech_asrデータセットを使用してfacebook/wav2vec2 - xls - r - 300mを微調整したものです。評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用されます。librispeech_asrデータセットで微調整されたfacebook/wav2vec2 - xls - r - 300mのバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.1444
単語誤り率 (Wer): 0.1167

✨ 主な機能

自動音声認識タスクに最適化されています。
複数のデータセットで評価され、良好な性能を示しています。

📚 ドキュメント

モデルの詳細

このモデルは、facebook/wav2vec2 - xls - r - 300mをlibrispeech_asrデータセットで微調整したものです。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

属性	詳情
学習率 (learning_rate)	5e - 05
学習バッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
勾配蓄積ステップ (gradient_accumulation_steps)	4
総学習バッチサイズ (total_train_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9, 0.999), epsilon = 1e - 08)
学習率スケジューラの種類 (lr_scheduler_type)	線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	1000
エポック数 (num_epochs)	50
混合精度学習 (mixed_precision_training)	Native AMP

学習結果

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
2.9365	4.17	500	2.9398	0.9999
1.5444	8.33	1000	0.5947	0.4289
1.1367	12.5	1500	0.2751	0.2366
0.9972	16.66	2000	0.2032	0.1797
0.9118	20.83	2500	0.1786	0.1479
0.8664	24.99	3000	0.1641	0.1408
0.8251	29.17	3500	0.1537	0.1267
0.793	33.33	4000	0.1525	0.1244
0.785	37.5	4500	0.1470	0.1184
0.7612	41.66	5000	0.1446	0.1177
0.7478	45.83	5500	0.1449	0.1176
0.7443	49.99	6000	0.1444	0.1167