wav2vec2 - 2 - bert - large - no - adapterオープンソースASRモデル - 無料で英語の音声を正確にテキストに変換する

ホーム

Wav2vec2 2 Bert Large No Adapter

speech-seq2seqによって開発

LibriSpeechデータセットで訓練された自動音声認識(ASR)モデルで、英語音声をテキストに変換します

音声認識

Transformers

#高精度音声書き起こし #英語音声認識 #低単語誤り率

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

このモデルは英語音声に特化した自動音声認識システムで、音声信号を対応するテキスト内容に変換できます。

モデル特徴

高精度

LibriSpeech評価セットで1.7858の単語誤り率を達成

エンドツーエンド訓練

生音声データからテキスト出力までの完全なプロセスをエンドツーエンドで訓練

最適化訓練

Adamオプティマイザーと線形学習率スケジューラーを使用した精密調整

モデル能力

英語音声認識

連続音声テキスト変換

大規模音声データ処理

使用事例

音声文字起こし

オーディオブック文字起こし

オーディオブックの内容を自動的にテキスト形式に変換

精度98.2%以上を達成

会議議事録

リアルタイムまたは事後に会議録音を文字記録に変換

支援技術

聴覚支援

聴覚障害者向けにリアルタイム字幕サービスを提供

🚀 音声認識モデル

このモデルは、音声認識タスクを解決するために開発されたものです。librispeech_asrデータセットを使用して学習され、評価セットで良好な結果を達成しています。

🚀 クイックスタート

このモデルは、librispeech_asrデータセットを用いてゼロから学習されました。評価セットでは以下の結果を達成しています。

損失: 6.9251
単語誤り率 (Wer): 1.7858

📚 ドキュメント

モデルの説明

このモデルは、librispeech_asrデータセットを用いてゼロから学習された音声認識モデルです。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 3e-05
学習バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 16
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 3.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
6.6487	0.28	500	6.8354	1.4719
6.5662	0.56	1000	6.7877	0.9371
6.4309	0.84	1500	6.7640	1.1317
6.7123	1.12	2000	6.7907	1.9354
6.7547	1.4	2500	6.7830	1.8854
6.6726	1.68	3000	6.8211	1.9203
6.6538	1.96	3500	6.8444	1.8235
6.5693	2.24	4000	6.8873	1.8606
6.7234	2.52	4500	6.8649	1.8126
6.5104	2.8	5000	6.9251	1.7858