Unispeech - SAT - base - TIMIT - FTオープンソース音声認識モデル、自動音声認識を高精度で実現する

ホーム

Unispeech Sat Base Timit Ft

patrickvonplatenによって開発

このモデルはmicrosoft/unispeech-sat-baseをTIMIT_ASRデータセットでファインチューニングした自動音声認識モデルで、評価セットで41.01%の単語誤り率を達成しました。

音声認識

Transformers

#英語音声認識 #TIMITデータセット最適化 #低単語誤り率

ダウンロード数 15

リリース時間 : 3/2/2022

モデル概要

UniSpeech-SAT Base TIMITファインチューニング版は、英語音声認識タスク向けに最適化されたモデルで、大規模音声データでの事前学習とTIMITデータセットでのファインチューニングにより、高い音声認識精度を実現しています。

モデル特徴

TIMITデータセットファインチューニング

TIMIT ASRデータセット向けに特別に最適化され、このデータセットでの認識精度を向上させました

UniSpeech-SATアーキテクチャベース

マイクロソフトのUniSpeech-SAT基本アーキテクチャを採用し、強力な音声特徴抽出能力を備えています

低単語誤り率

評価セットで41.01%の単語誤り率を達成し、多くの同類モデルよりも優れた性能を示しています

モデル能力

英語音声認識

連続音声からテキストへ

音素レベル認識

使用事例

音声書き起こし

英語音声転写

英語の話し言葉を書面テキストに変換

単語誤り率41.01%

音声学研究

音素分析

音声学研究や発音分析に使用

🚀 unispeech - sat - base - timit - ft

このモデルは、TIMIT_ASR - NAデータセットで[microsoft/unispeech - sat - base](https://huggingface.co/microsoft/unispeech - sat - base)をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.6712
単語誤り率 (Wer): 0.4101

📚 ドキュメント

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 0.0001
訓練バッチサイズ (train_batch_size): 32
評価バッチサイズ (eval_batch_size): 1
シード (seed): 42
オプティマイザ (optimizer): Adam（ベータ=(0.9, 0.999)、イプシロン=1e - 08）
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 1000
エポック数 (num_epochs): 20.0
混合精度訓練 (mixed_precision_training): Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.2582	0.69	100	3.1651	1.0
2.9542	1.38	200	2.9567	1.0
2.9656	2.07	300	2.9195	1.0
2.8946	2.76	400	2.8641	1.0
1.9305	3.45	500	1.7680	1.0029
1.0134	4.14	600	1.0184	0.6942
0.8355	4.83	700	0.7769	0.6080
0.8724	5.52	800	0.7182	0.6035
0.5619	6.21	900	0.6823	0.5406
0.4247	6.9	1000	0.6279	0.5237
0.4257	7.59	1100	0.6056	0.5000
0.5007	8.28	1200	0.5870	0.4918
0.3854	8.97	1300	0.6200	0.4804
0.264	9.66	1400	0.6030	0.4600
0.1989	10.34	1500	0.6049	0.4588
0.3196	11.03	1600	0.5946	0.4599
0.2622	11.72	1700	0.6282	0.4422
0.1697	12.41	1800	0.6559	0.4413
0.1464	13.1	1900	0.6349	0.4328
0.2277	13.79	2000	0.6133	0.4284
0.221	14.48	2100	0.6617	0.4219
0.1391	15.17	2200	0.6705	0.4235
0.112	15.86	2300	0.6207	0.4218
0.1717	16.55	2400	0.6749	0.4184
0.2081	17.24	2500	0.6756	0.4169
0.1244	17.93	2600	0.6750	0.4181
0.0978	18.62	2700	0.6500	0.4115
0.128	19.31	2800	0.6750	0.4106
0.1791	20.0	2900	0.6712	0.4101