wav2vec2-large-xls-r-300m-turkish-colabオープンソース音声認識モデル

Wav2vec2 Large Xls R 300m Turkish Colab

Samiulによって開発

このモデルはfacebook/wav2vec2-xls-r-300mをcommon_voiceトルコ語データセットでファインチューニングした音声認識モデルで、評価セットで32.08%の単語誤り率を達成しました。

ダウンロード数 99

リリース時間 : 6/26/2022

モデル概要

トルコ語に最適化された自動音声認識(ASR)モデルで、wav2vec 2.0アーキテクチャの大規模事前学習モデルを基にファインチューニングされています。

トルコ語最適化

トルコ語音声認識タスクに特化してファインチューニングされています

大規模事前学習ベース

3億パラメータのwav2vec2-xls-r事前学習モデルを基にしています

効率的なトレーニング

混合精度トレーニングや勾配蓄積などの技術でトレーニング効率を最適化しています

トルコ語音声認識

音声からテキストへの変換

音声書き起こし

トルコ語音声書き起こし

トルコ語音声をテキストに変換します

単語誤り率32.08%

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントシステムでのコマンド認識に使用されます

パラメータ	値
learning_rate	0.0003
train_batch_size	16
eval_batch_size	8
seed	42
gradient_accumulation_steps	2
total_train_batch_size	32
optimizer	Adam (betas=(0.9,0.999), epsilon=1e-08)
lr_scheduler_type	linear
lr_scheduler_warmup_steps	500
num_epochs	30
mixed_precision_training	Native AMP

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.9162	3.67	400	0.6340	0.6360
0.4033	7.34	800	0.4588	0.4911
0.1919	11.01	1200	0.4392	0.4460
0.1315	14.68	1600	0.4269	0.4270
0.0963	18.35	2000	0.4327	0.3834
0.0801	22.02	2400	0.3867	0.3643
0.0631	25.69	2800	0.3854	0.3441
0.0492	29.36	3200	0.3821	0.3208