wav2vec2-common_voice-tr-demo-distオープンソース音声認識モデル

Wav2vec2 Common Voice Tr Demo Dist

gary109によって開発

このモデルはfacebook/wav2vec2-large-xlsr-53をトルコ語COMMON_VOICEデータセットでファインチューニングした自動音声認識(ASR)モデルで、評価セットで33.05%の単語誤り率(WER)を達成しました。

音声認識

Transformers

その他オープンソースライセンス:Apache-2.0 #トルコ語音声認識 #マルチGPUファインチューニング #低単語誤り率

ダウンロード数 26

リリース時間 : 4/12/2022

モデル概要

トルコ語に最適化された音声認識モデルで、トルコ語の音声をテキストに変換するタスクに適しています。

モデル特徴

トルコ語最適化

トルコ語音声データに特化してファインチューニングされており、トルコ語の発音特性に適応しています

wav2vec2アーキテクチャ採用

facebookのwav2vec2-large-xlsr-53をベースモデルとして採用し、強力な音声特徴抽出能力を備えています

マルチGPUトレーニング

2つのGPUを使用した分散トレーニングにより、トレーニング効率を向上させています

モデル能力

トルコ語音声からテキストへの変換

連続音声認識

音声内容の文字起こし

使用事例

音声文字起こし

トルコ語会議議事録

トルコ語の会議録音を自動的に文字記録に変換

単語誤り率約33.05%

音声アシスタント

トルコ語音声アシスタントに音声認識機能を提供

🚀 wav2vec2-common_voice-tr-demo-dist

このモデルは、COMMON_VOICE - TRデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3934
単語誤り率 (Wer): 0.3305

🚀 クイックスタート

このモデルは自動音声認識タスクに使用できます。具体的な使用方法は、後続のセクションで説明します。

📚 ドキュメント

モデルの説明

このモデルは、自動音声認識のためにファインチューニングされたモデルです。詳細な情報は今後追加予定です。

想定される用途と制限

このモデルの想定される用途と制限に関する詳細な情報は今後追加予定です。

学習と評価データ

学習と評価に使用されたデータに関する詳細な情報は今後追加予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 4
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
分散学習タイプ (distributed_type): マルチGPU
デバイス数 (num_devices): 2
総学習バッチサイズ (total_train_batch_size): 8
総評価バッチサイズ (total_eval_batch_size): 16
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラのタイプ (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 15.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5459	0.23	100	3.6773	1.0
3.2247	0.46	200	3.1491	0.9999
2.3457	0.69	300	2.4236	1.0041
0.9149	0.92	400	0.9471	0.7684
0.6622	1.15	500	0.7518	0.6863
0.7205	1.38	600	0.6387	0.6402
0.6978	1.61	700	0.5611	0.5739
0.5317	1.84	800	0.5061	0.5418
0.5222	2.07	900	0.4839	0.5344
0.4467	2.3	1000	0.5060	0.5339
0.3196	2.53	1100	0.4619	0.5213
0.276	2.76	1200	0.4595	0.5020
0.3569	2.99	1300	0.4339	0.4901
0.2236	3.22	1400	0.4602	0.4887
0.293	3.45	1500	0.4376	0.4639
0.1677	3.68	1600	0.4371	0.4605
0.1838	3.91	1700	0.4116	0.4589
0.1225	4.14	1800	0.4144	0.4495
0.2301	4.37	1900	0.4250	0.4567
0.1931	4.6	2000	0.4081	0.4470
0.1427	4.83	2100	0.4295	0.4482
0.361	5.06	2200	0.4374	0.4445
0.3272	5.29	2300	0.4088	0.4258
0.3686	5.52	2400	0.4087	0.4258
0.3087	5.75	2500	0.4100	0.4371
0.4637	5.98	2600	0.4038	0.4219
0.1485	6.21	2700	0.4361	0.4197
0.1341	6.44	2800	0.4217	0.4132
0.1185	6.67	2900	0.4244	0.4097
0.1588	6.9	3000	0.4212	0.4181
0.0697	7.13	3100	0.3981	0.4073
0.0491	7.36	3200	0.3992	0.4010
0.088	7.59	3300	0.4206	0.4022
0.0731	7.82	3400	0.3998	0.3841
0.2767	8.05	3500	0.4195	0.3829
0.1725	8.28	3600	0.4167	0.3946
0.1242	8.51	3700	0.4177	0.3821
0.1133	8.74	3800	0.3993	0.3802
0.1952	8.97	3900	0.4132	0.3904
0.1399	9.2	4000	0.4010	0.3795
0.047	9.43	4100	0.4128	0.3703
0.049	9.66	4200	0.4319	0.3670
0.0994	9.89	4300	0.4118	0.3631
0.1209	10.11	4400	0.4296	0.3722
0.0484	10.34	4500	0.4130	0.3615
0.2065	10.57	4600	0.3958	0.3668
0.133	10.8	4700	0.4102	0.3679
0.0622	11.03	4800	0.4137	0.3585
0.0999	11.26	4900	0.4042	0.3583
0.0346	11.49	5000	0.4183	0.3573
0.072	11.72	5100	0.4060	0.3530
0.0365	11.95	5200	0.3968	0.3483
0.0615	12.18	5300	0.3958	0.3485
0.1067	12.41	5400	0.3987	0.3453
0.0253	12.64	5500	0.4182	0.3405
0.0636	12.87	5600	0.4199	0.3458
0.0506	13.1	5700	0.4056	0.3412
0.0944	13.33	5800	0.4061	0.3381
0.1187	13.56	5900	0.4113	0.3381
0.0237	13.79	6000	0.3973	0.3343
0.0166	14.02	6100	0.4001	0.3357
0.1189	14.25	6200	0.3931	0.3315
0.0375	14.48	6300	0.3944	0.3329
0.0537	14.71	6400	0.3953	0.3308
0.045	14.94	6500	0.3933	0.3303