WavLm-base-enオープンソース英語自動音声認識モデル - 無料でデプロイし、低誤差で高精度な文字起こしが可能

ホーム

Wavlm Base En

anjulRajendraSharmaによって開発

microsoft/wavlm-baseをファインチューニングした英語自動音声認識(ASR)モデルで、english_ASR - CLEANデータセットでトレーニングされ、単語誤り率(WER)は0.0773です。

音声認識

Transformers

#英語音声認識 #低単語誤り率 #WavLMファインチューニング

ダウンロード数 17

リリース時間 : 3/2/2022

モデル概要

このモデルは英語音声認識タスクに最適化されたWavLMベースモデルで、高精度な英語音声から文字への変換アプリケーションに適しています。

モデル特徴

低単語誤り率

評価セットで0.0773の単語誤り率(WER)を達成し、優れた性能を発揮

WavLMアーキテクチャベース

マイクロソフトのWavLM-baseモデルをファインチューニングしており、その強力な音声表現能力を継承

最適化トレーニング

注意深く調整されたトレーニングパラメータと線形学習率スケジューリング戦略を採用

モデル能力

英語音声認識

高精度音声テキスト変換

使用事例

音声文字起こし

会議議事録

英語会議録音を自動的に文字記録に変換

高精度な文字起こし結果

字幕生成

英語動画コンテンツに自動的に字幕を生成

音声アシスタント

音声コマンド認識

英語音声コマンドを認識・理解

🚀 wavlm-base-english

このモデルは、english_ASR - CLEANデータセットでmicrosoft/wavlm-baseをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.0955
単語誤り率 (Wer): 0.0773

🚀 クイックスタート

このモデルは、英語の自動音声認識タスクに使用できます。以下に評価セットでの結果を示します。

📚 ドキュメント

モデルの説明

このモデルは、英語の自動音声認識タスクに特化してmicrosoft/wavlm-baseをファインチューニングしたものです。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 16
乱数シード (seed): 42
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 1.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.8664	0.17	300	2.8439	1.0
0.5009	0.34	600	0.2709	0.2162
0.2056	0.5	900	0.1934	0.1602
0.1648	0.67	1200	0.1576	0.1306
0.1922	0.84	1500	0.1358	0.1114
0.093	1.01	1800	0.1277	0.1035
0.0652	1.18	2100	0.1251	0.1005
0.0848	1.35	2400	0.1188	0.0964
0.0706	1.51	2700	0.1091	0.0905
0.0846	1.68	3000	0.1018	0.0840
0.0684	1.85	3300	0.0978	0.0809

フレームワークのバージョン

Transformers 4.15.0
Pytorch 1.9.1
Datasets 1.18.0
Tokenizers 0.10.3

属性	详情
モデルタイプ	英語の自動音声認識用にファインチューニングされたwavlm-base
学習データ	english_ASR - CLEANデータセット