wav2vec2-base-turkish-cv8オープンソースモデル - トルコ語の音声を無料で正確にテキストに変換

ホーム

Wav2vec2 Base Turkish Cv8

cahyaによって開発

これはCommon Voice 8.0トルコ語データセットを基に微調整された自動音声認識(ASR)モデルで、トルコ語の音声をテキストに変換することができます。

音声認識

Transformers

その他#トルコ語ASR #Common Voice微調整 #低単語誤り率

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはトルコ語の音声認識タスクに特化しており、Common Voice評価セットで28.36%の単語誤り率(WER)を達成しました。

モデル特徴

トルコ語最適化

トルコ語に特化して最適化訓練を行い、トルコ語の音声認識タスクで良好な性能を発揮します

Common Voiceデータベース

Mozilla Common Voice 8.0トルコ語データセットを使用して訓練と評価を行います

段階的最適化

訓練過程で継続的に最適化を行い、単語誤り率が初期の27.52%から段階的に低下しました

モデル能力

トルコ語音声認識

音声テキスト変換

使用事例

音声文字起こし

トルコ語音声文字起こし

トルコ語の音声内容をテキスト形式に変換します

単語誤り率28.36%

音声アシスタント

トルコ語音声コマンド認識

トルコ語の音声アシスタントシステムのコマンド認識に使用します

🚀 自動音声認識微調モデル

このモデルは、自動音声認識技術に基づき、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - TRデータセットを使用して./checkpoint - 1000を微調整したものです。評価セットで良好な性能を発揮し、音声認識タスクにより高精度な結果を提供します。

🚀 クイックスタート

このモデルは、./checkpoint-1000をMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - TRデータセットで微調整したバージョンです。評価セットでは以下の結果が得られました。

損失値（Loss）：0.3282
字錯率（Wer）：0.2836

🔧 技術詳細

学習ハイパーパラメータ

学習過程では以下のハイパーパラメータが使用されました。

学習率（learning_rate）：0.0003
学習バッチサイズ（train_batch_size）：96
評価バッチサイズ（eval_batch_size）：8
乱数シード（seed）：42
勾配累積ステップ数（gradient_accumulation_steps）：2
総学習バッチサイズ（total_train_batch_size）：192
オプティマイザ（optimizer）：Adam、betas=(0.9, 0.999)、epsilon = 1e - 08
学習率スケジューラタイプ（lr_scheduler_type）：線形
学習率スケジューラウォームアップステップ数（lr_scheduler_warmup_steps）：100
学習エポック数（num_epochs）：100.0
混合精度学習（mixed_precision_training）：Native AMP

学習結果

学習損失	エポック数	ステップ数	検証損失	字錯率
1.0671	2.04	200	0.3079	0.2752
0.6433	4.08	400	0.2728	0.2848
0.5687	6.12	600	0.2882	0.3036
0.5355	8.16	800	0.2778	0.2920
0.5116	10.2	1000	0.2906	0.3014
0.5313	9.16	1200	0.2984	0.3273
0.4996	10.69	1400	0.3170	0.3344
0.4845	12.21	1600	0.3202	0.3634
0.5092	13.74	1800	0.3167	0.3373
0.4777	15.27	2000	0.3292	0.3386
0.4651	16.79	2200	0.3070	0.3427
0.461	18.32	2400	0.3149	0.3561
0.4481	19.85	2600	0.3292	0.3441
0.4479	21.37	2800	0.3142	0.3209
0.4305	22.9	3000	0.3525	0.3547
0.4254	24.43	3200	0.3414	0.3400
0.4066	25.95	3400	0.3118	0.3207
0.4043	27.48	3600	0.3418	0.3483
0.3985	29.01	3800	0.3254	0.3166
0.3982	30.53	4000	0.3306	0.3453
0.3929	32.06	4200	0.3262	0.3229
0.378	33.59	4400	0.3546	0.3336
0.4062	35.11	4600	0.3174	0.3457
0.3648	36.64	4800	0.3377	0.3357
0.3609	38.17	5000	0.3346	0.3520
0.3483	39.69	5200	0.3350	0.3526
0.3548	41.22	5400	0.3330	0.3406
0.3446	42.75	5600	0.3398	0.3372
0.3346	44.27	5800	0.3449	0.3288
0.3309	45.8	6000	0.3320	0.3144
0.326	47.33	6200	0.3400	0.3279
0.3189	48.85	6400	0.3400	0.3150
0.3165	50.38	6600	0.3359	0.2995
0.3132	51.91	6800	0.3343	0.3096
0.3092	53.44	7000	0.3224	0.3029
0.2995	54.96	7200	0.3205	0.2985
0.304	56.49	7400	0.3523	0.3034
0.2952	58.02	7600	0.3289	0.2934
0.2875	59.54	7800	0.3350	0.3008
0.2868	61.07	8000	0.3537	0.3227
0.2875	62.6	8200	0.3389	0.2970
0.2778	64.12	8400	0.3370	0.2960
0.2706	65.65	8600	0.3250	0.2802
0.2669	67.18	8800	0.3351	0.2903
0.2615	68.7	9000	0.3382	0.2989
0.2563	70.23	9200	0.3312	0.2975
0.2546	71.76	9400	0.3212	0.3003
0.2482	73.28	9600	0.3337	0.3091
0.2504	74.81	9800	0.3308	0.3110
0.2456	76.34	10000	0.3157	0.3118
0.2363	77.86	10200	0.3251	0.3144
0.2319	79.39	10400	0.3253	0.3038
0.2266	80.92	10600	0.3374	0.3038
0.2279	82.44	10800	0.3268	0.2964
0.2231	83.97	11000	0.3278	0.2950
0.2185	85.5	11200	0.3462	0.2981
0.2245	87.02	11400	0.3311	0.2895
0.223	88.55	11600	0.3325	0.2877
0.2121	90.08	11800	0.3337	0.2828
0.2126	91.6	12000	0.3325	0.2808
0.2027	93.13	12200	0.3277	0.2820
0.2058	94.66	12400	0.3308	0.2827
0.1991	96.18	12600	0.3279	0.2820
0.1991	97.71	12800	0.3300	0.2822
0.1986	99.24	13000	0.3285	0.2835