wav2vec2-common_voice-tr-demo-distオープンソース音声認識モデル

Wav2vec2 Common Voice Tr Demo Dist

cromz22によって開発

このモデルは、facebook/wav2vec2-large-xlsr-53をCOMMON_VOICE - TRトルコ語データセットでファインチューニングした自動音声認識(ASR)モデルで、評価セットで0.3242の単語誤り率を達成しました。

ダウンロード数 26

リリース時間 : 5/18/2022

モデル概要

トルコ語向けの自動音声認識モデルで、wav2vec2アーキテクチャを基にファインチューニングされており、トルコ語音声をテキストに変換するタスクに適しています。

トルコ語最適化

トルコ語音声データに特化してファインチューニングされており、トルコ語認識タスクで良好な性能を発揮します

wav2vec2アーキテクチャ採用

facebookのwav2vec2-large-xlsr-53をベースモデルとして採用しており、強力な音声特徴抽出能力を備えています

マルチGPUトレーニング

4つのGPUを使用した分散トレーニングにより、トレーニング効率が向上しています

トルコ語音声認識

音声からテキストへの変換

音声文字起こし

トルコ語音声文字起こし

トルコ語音声コンテンツをテキストに変換

単語誤り率0.3242

音声アシスタント

トルコ語音声コマンド認識

トルコ語音声アシスタントシステムでの音声コマンド認識に使用

このモデルは、facebook/wav2vec2-large-xlsr-53 を COMMON_VOICE - TR データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは自動音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceのライブラリを参照してください。

トレーニング中に使用されたハイパーパラメータは以下の通りです。

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.5279	0.46	100	3.6260	1.0
3.1065	0.92	200	3.0854	0.9999
1.4111	1.38	300	1.3343	0.8839
0.8468	1.83	400	0.6920	0.6826
0.6242	2.29	500	0.6001	0.5996
0.4181	2.75	600	0.5655	0.5680
0.4311	3.21	700	0.4478	0.5003
0.3601	3.67	800	0.4548	0.5011
0.2756	4.13	900	0.4444	0.4682
0.2373	4.59	1000	0.4111	0.4432
0.1831	5.05	1100	0.4178	0.4447
0.2423	5.5	1200	0.3881	0.4277
0.2128	5.96	1300	0.3865	0.4018
0.1256	6.42	1400	0.3818	0.4137
0.1038	6.88	1500	0.3739	0.3942
0.1662	7.34	1600	0.3938	0.3929
0.198	7.8	1700	0.3831	0.3837
0.0728	8.26	1800	0.3910	0.3867
0.123	8.72	1900	0.3722	0.3735
0.0776	9.17	2000	0.3938	0.3725
0.1597	9.63	2100	0.3786	0.3697
0.1124	10.09	2200	0.3947	0.3590
0.0965	10.55	2300	0.3952	0.3562
0.0612	11.01	2400	0.3810	0.3476
0.0764	11.47	2500	0.3734	0.3507
0.0973	11.93	2600	0.3935	0.3472
0.0649	12.39	2700	0.3672	0.3413
0.0542	12.84	2800	0.3732	0.3369
0.087	13.3	2900	0.3833	0.3458
0.0196	13.76	3000	0.3761	0.3303
0.0548	14.22	3100	0.3855	0.3274
0.0577	14.68	3200	0.3893	0.3238