wav2vec2-2-bart-large-no-adapterオープンソースモデル - 無料で英語の音声を精度よくテキストに変換

ホーム

Wav2vec2 2 Bart Large No Adapter

sanchit-gandhiによって開発

このモデルはLibriSpeech ASRデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換できます。

音声認識

Transformers

#高精度音声書き起こし #低単語誤り率 #英語音声認識

ダウンロード数 22

リリース時間 : 3/14/2022

モデル概要

これはゼロから訓練された音声認識モデルで、英語音声からテキストへの変換タスクに特化しています。モデルはLibriSpeech評価セットで1.0267の単語誤り率(WER)を達成しました。

モデル特徴

低単語誤り率

LibriSpeech評価セットで1.0267の単語誤り率(WER)を達成し、優れた性能を発揮

エンドツーエンド学習

モデルはゼロから訓練されており、事前学習済みの重みに依存しません

最適化された訓練設定

Adamオプティマイザーと線形学習率スケジューラーを採用し、勾配蓄積技術を組み合わせて効率的な訓練を実現

モデル能力

英語音声認識

音声からテキストへの変換

連続音声認識

使用事例

音声書き起こし

オーディオブックの書き起こし

英語のオーディオブックを自動的にテキストに変換

高精度な書き起こし結果

会議議事録

英語の会議内容を自動記録して文字起こし

支援技術

リアルタイム字幕生成

英語の動画やライブ配信にリアルタイムで字幕を生成

🚀 音声認識モデル

このモデルは、音声認識タスクに特化したモデルで、librispeech_asrデータセットを用いて学習され、評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、librispeech_asrデータセットを使ってゼロから学習されました。評価セットでは以下の結果を達成しています：

損失: 5.6120
単語誤り率 (Wer): 1.0267

📚 ドキュメント

モデルの説明

モデルに関する詳細情報は、今後の更新で提供される予定です。

想定される用途と制限

想定される用途と制限に関する詳細情報は、今後の更新で提供される予定です。

学習と評価データ

学習と評価に使用されたデータに関する詳細情報は、今後の更新で提供される予定です。

🔧 技術詳細

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです：

学習率 (learning_rate): 3e-05
学習バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配蓄積ステップ (gradient_accumulation_steps): 4
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 5.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
6.7189	0.56	500	6.9796	0.9350
6.5068	1.12	1000	6.4823	1.3923
6.4601	1.68	1500	6.1801	1.1578
6.1802	2.24	2000	6.0002	1.7750
6.0888	2.8	2500	5.8453	1.7581
6.0993	3.36	3000	5.7702	1.4096
6.0851	3.92	3500	5.6634	1.0944
5.9357	4.48	4000	5.6120	1.0267