wavlm-libri-clean-100h-baseオープンソース自動音声認識モデル - 高精度な認識で音声処理をより簡単に

Wavlm Libri Clean 100h Base

patrickvonplatenによって開発

microsoft/wavlm-baseをLIBRISPEECH_ASR - CLEANデータセットでファインチューニングした自動音声認識モデル

ダウンロード数 6,515

リリース時間 : 3/2/2022

モデル概要

このモデルは英語音声認識タスク向けに最適化されたWavLMベースバージョンで、100時間のクリーン音声データでファインチューニングされており、低い単語誤り率を実現しています。

効率的なファインチューニング

100時間のクリーン音声データでファインチューニングを行い、ベースモデルの認識精度を大幅に向上させました

低い単語誤り率

評価データセットで0.0675の単語誤り率(WER)を達成し、優れた性能を示しています

マルチGPUトレーニング

8つのGPUを使用した分散トレーニングにより、トレーニング効率を向上させました

英語音声認識

連続音声テキスト変換

高精度文字起こし

音声文字起こし

会議議録の自動生成

会議録音を自動的に文字記録に変換

約93.25%の精度（WER 0.0675に基づく計算）

ポッドキャストコンテンツインデックス

オーディオポッドキャスト番組の検索可能なテキストコンテンツを生成

支援技術

リアルタイム字幕生成

動画やライブコンテンツにリアルタイムで字幕を提供

パラメータ	値
学習率 (learning_rate)	0.0003
トレーニングバッチサイズ (train_batch_size)	4
評価バッチサイズ (eval_batch_size)	4
乱数シード (seed)	42
分散タイプ (distributed_type)	multi - GPU
デバイス数 (num_devices)	8
総トレーニングバッチサイズ (total_train_batch_size)	32
総評価バッチサイズ (total_eval_batch_size)	32
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e - 08)
学習率スケジューラタイプ (lr_scheduler_type)	linear
学習率スケジューラウォームアップステップ (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	3.0
混合精度トレーニング (mixed_precision_training)	Native AMP

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.8805	0.34	300	2.8686	1.0
0.2459	0.67	600	0.1858	0.1554
0.1114	1.01	900	0.1379	0.1191
0.0867	1.35	1200	0.1130	0.0961
0.0698	1.68	1500	0.1032	0.0877
0.0663	2.02	1800	0.0959	0.0785
0.0451	2.35	2100	0.0887	0.0748
0.0392	2.69	2400	0.0859	0.0698