wav2vec2-child-en-tokenizer-4オープンソースモデル - 英語の子供向け音声認識に特化し、教育シーンをサポート！

Wav2vec2 Child En Tokenizer 4

jaeyeonによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンで、英語の児童音声認識タスクに特化しています。

ダウンロード数 16

リリース時間 : 4/8/2022

モデル概要

wav2vec2-child-en-tokenizer-4は音声認識モデルで、特に児童の英語音声に最適化されています。単語誤り率(WER)の面で優れた性能を発揮し、教育や児童向け音声インタラクションなどのシナリオに適しています。

児童音声最適化

児童の音声特性に特化してファインチューニングされ、認識精度を向上

効率的なトレーニング

勾配累積や混合精度トレーニングなどの技術を使用してトレーニング効率を最適化

安定した性能

検証セットで安定した損失と単語誤り率を示す

英語音声認識

児童音声処理

リアルタイム音声テキスト変換

教育

児童向け英語学習アプリ

児童向け英語学習アプリの音声インタラクション機能開発に使用

単語誤り率0.3769

スマートトイ

スマートトイ音声制御

児童向けスマートトイに音声認識機能を提供

このモデルは、facebook/wav2vec2-xls-r-300m をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。具体的な使用方法は、Hugging Faceのドキュメントを参照してください。

学習時には以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.0334	1.72	100	1.4709	0.3769
0.0332	3.45	200	1.4709	0.3769
0.0343	5.17	300	1.4709	0.3769
0.032	6.9	400	1.4709	0.3769
0.0332	8.62	500	1.4709	0.3769
0.0327	10.34	600	1.4709	0.3769
0.0331	12.07	700	1.4709	0.3769
0.0334	13.79	800	1.4709	0.3769
0.0319	15.52	900	1.4709	0.3769
0.0338	17.24	1000	1.4709	0.3769
0.0321	18.97	1100	1.4709	0.3769
0.0367	20.69	1200	1.4709	0.3769
0.0331	22.41	1300	1.4709	0.3769
0.0332	24.14	1400	1.4709	0.3769
0.0347	25.86	1500	1.4709	0.3769
0.0319	27.59	1600	1.4709	0.3769
0.0302	29.31	1700	1.4709	0.3769