sew-d-mid-400k-librispeech-clean-100h-ftオープンソースモデル - 高精度自動音声認識、低エラー率

Sew D Mid 400k Librispeech Clean 100h Ft

patrickvonplatenによって開発

このモデルは、asapp/sew-d-mid-400kをLIBRISPEECH_ASR - CLEANデータセットで微調整した自動音声認識モデルで、評価セットで1.0536の単語誤り率（WER）を達成しました。

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

英語の音声認識タスクに最適化されたモデルで、特にLibriSpeechデータセットのクリーンな音声サンプルに適しています。

効率的な音声認識

SEW - Dアーキテクチャに基づいて最適化され、効率的な音声からテキストへの変換能力を提供します。

低単語誤り率

LibriSpeech clean 100hデータセットで1.0536のWERを達成しました。

多GPU訓練の最適化

分散訓練をサポートし、多GPU環境でのパフォーマンスを最適化します。

英語の音声認識

高精度の文字起こし

クリーンな音声サンプルの処理

音声文字起こし

オーディオブックの文字起こし

高品質のオーディオブックの内容をテキストに変換します。

高い正確率の文字起こし結果

会議記録

静かな環境での会議音声の記録を行います。

このモデルは、LIBRISPEECH_ASR - CLEANデータセットでasapp/sew-d-mid-400kをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

Apache-2.0

プロパティ	詳細
モデル名	sew-d-mid-400k-librispeech-clean-100h-ft
元のモデル	asapp/sew-d-mid-400k

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
7.319	0.11	100	11.0572	1.0
3.6726	0.22	200	4.2003	1.0
2.981	0.34	300	3.5742	0.9919
2.9411	0.45	400	3.2599	1.0
2.903	0.56	500	2.9350	1.0
2.8597	0.67	600	2.9514	1.0
2.7771	0.78	700	2.8521	1.0
2.7926	0.9	800	2.7821	1.0120
2.6623	1.01	900	2.7027	0.9924
2.5893	1.12	1000	2.6667	1.0240
2.5733	1.23	1100	2.6341	1.0368
2.5455	1.35	1200	2.5928	1.0411
2.4919	1.46	1300	2.5695	1.0817
2.5182	1.57	1400	2.5559	1.1072
2.4766	1.68	1500	2.5229	1.1257
2.4267	1.79	1600	2.4991	1.1151
2.3919	1.91	1700	2.4768	1.1139
2.3883	2.02	1800	2.4452	1.0636
2.3737	2.13	1900	2.4304	1.0594
2.3569	2.24	2000	2.4095	1.0539
2.3641	2.35	2100	2.3997	1.0511
2.3281	2.47	2200	2.3856	1.0414
2.2912	2.58	2300	2.3750	1.0696
2.3028	2.69	2400	2.3684	1.0436
2.2906	2.8	2500	2.3613	1.0538
2.2822	2.91	2600	2.3558	1.0506