wav2vec2-2オープンソース音声認識モデル - 無料デプロイ、評価セットの単語誤り率が0.8133まで低下

Wav2vec2 2

chrisvinsenによって開発

facebook/wav2vec2-baseをファインチューニングした音声認識モデルで、評価セットでの単語誤り率(WER)は0.8133

ダウンロード数 16

リリース時間 : 5/22/2022

モデル概要

このモデルは音声認識タスク用のファインチューニング版で、wav2vec2アーキテクチャに基づいており、音声をテキストに変換するアプリケーションに適しています。

wav2vec2アーキテクチャベース

Facebookのwav2vec2-baseをベースモデルとして採用し、優れた音声特徴抽出能力を有する

ファインチューニング最適化

特定のデータセットでファインチューニングを行い、音声認識性能を最適化

比較的低い単語誤り率

評価セットで0.8133の単語誤り率(WER)を達成

音声認識

音声からテキストへの変換

音声文字起こし

会議議事録

会議録音を自動的に文字記録に変換

音声メモ

音声メモを検索可能なテキストに変換

支援技術

音声テキスト変換サービス

聴覚障害者向けにリアルタイム字幕サービスを提供

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法は、モデルの詳細なドキュメントやサンプルコードを参照してください。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

パラメータ	値
学習率 (learning_rate)	1e-05
学習バッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
乱数シード (seed)	42
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type)	linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps)	400
エポック数 (num_epochs)	10

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
8.4469	0.34	200	3.7440	1.0
3.1152	0.69	400	3.3755	1.0
2.9228	1.03	600	3.0427	1.0
2.8661	1.38	800	2.9406	1.0
2.8402	1.72	1000	2.9034	1.0
2.8301	2.07	1200	2.8850	1.0
2.8088	2.41	1400	2.8479	1.0
2.6892	2.75	1600	2.5800	1.0
2.3249	3.1	1800	2.1310	1.0
1.9687	3.44	2000	1.7652	0.9982
1.7338	3.79	2200	1.5430	0.9974
1.5698	4.13	2400	1.3927	0.9985
1.4475	4.48	2600	1.3186	0.9911
1.3764	4.82	2800	1.2406	0.9647
1.3022	5.16	3000	1.1954	0.9358
1.2409	5.51	3200	1.1450	0.8990
1.1989	5.85	3400	1.1107	0.8794
1.1478	6.2	3600	1.0839	0.8667
1.106	6.54	3800	1.0507	0.8573
1.0792	6.88	4000	1.0179	0.8463
1.0636	7.23	4200	0.9974	0.8355
1.0224	7.57	4400	0.9757	0.8343
1.0166	7.92	4600	0.9641	0.8261
0.9925	8.26	4800	0.9553	0.8183
0.9934	8.61	5000	0.9466	0.8199
0.9741	8.95	5200	0.9353	0.8172
0.9613	9.29	5400	0.9331	0.8133
0.9714	9.64	5600	0.9272	0.8144
0.9593	9.98	5800	0.9253	0.8133