wav2vec2-large-xlsr-53-W2V2-TATAR-SMALLオープンソースモデル - タタール語の自動音声認識を精度良く実現

Wav2vec2 Large Xlsr 53 W2V2 TATAR SMALL

emreによって開発

このモデルはfacebook/wav2vec2-large-xlsr-53をCommon Voice 8データセットでファインチューニングしたタタール語(Tatar)自動音声認識モデルで、テストセットのWERは53.16%です。

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

これはタタール語向けに最適化された自動音声認識モデルで、wav2vec2アーキテクチャに基づき、Common Voiceデータセットでファインチューニングされています。

多言語サポート

XLSR-53事前学習モデルに基づき、言語横断的な表現能力を有する

音声認識最適化

タタール語向けに特化してファインチューニングされている

効率的なトレーニング

混合精度トレーニングや勾配蓄積などの技術を使用してトレーニング効率を向上

タタール語音声からテキストへの変換

音声認識

音声文字起こし

音声文字起こし

タタール語音声文字起こし

タタール語の音声コンテンツをテキストに変換

WER 53.16%

音声アシスタント

タタール語音声コマンド認識

タタール語音声アシスタントや音声制御システム向けの音声認識モジュール

このモデルは、common_voiceデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、自動音声認識 (Automatic Speech Recognition) タスクに特化したモデルで、common_voiceデータセットを用いて学習されています。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
6.2446	1.17	400	3.2621	1.0
1.739	2.35	800	0.5832	0.7688
0.4718	3.52	1200	0.4785	0.6824
0.3574	4.69	1600	0.4814	0.6792
0.2946	5.86	2000	0.4484	0.6506
0.2674	7.04	2400	0.4612	0.6225
0.2349	8.21	2800	0.4600	0.6050
0.2206	9.38	3200	0.4772	0.6048
0.2072	10.56	3600	0.4676	0.6106
0.1984	11.73	4000	0.4816	0.6079
0.1793	12.9	4400	0.4616	0.5836
0.172	14.08	4800	0.4808	0.5860
0.1624	15.25	5200	0.4854	0.5820
0.156	16.42	5600	0.4609	0.5656
0.1448	17.59	6000	0.4926	0.5817
0.1406	18.77	6400	0.4638	0.5654
0.1337	19.94	6800	0.4731	0.5652
0.1317	21.11	7200	0.4861	0.5639
0.1179	22.29	7600	0.4766	0.5521
0.1197	23.46	8000	0.4824	0.5584
0.1096	24.63	8400	0.5006	0.5559
0.1038	25.81	8800	0.4994	0.5440
0.0992	26.98	9200	0.4867	0.5405
0.0984	28.15	9600	0.4798	0.5361
0.0943	29.33	10000	0.4714	0.5316