wav2vec2-xls-r-phoneme-300m-trオープンソースモデル - トルコ語の自動音声認識に使用

Wav2vec2 Xls R Phoneme 300m Tr

patrickvonplatenによって開発

Facebookのwav2vec2-xls-r-300mモデルをトルコ語Common Voiceデータセットでファインチューニングした自動音声認識モデル

ダウンロード数 16

リリース時間 : 3/2/2022

モデル概要

このモデルはトルコ語に最適化された自動音声認識(ASR)モデルで、音素レベルの認識タスクに特化しています。Common Voiceトルコ語評価セットで16.64%の音素誤り率(PER)を達成しました。

音素レベル認識

音素レベルの音声認識に特化しており、精密な音声分析が必要なアプリケーションに適しています

トルコ語最適化

トルコ語専用にファインチューニングされており、Common Voiceトルコ語データセットで良好な性能を発揮します

XLS-Rアーキテクチャ採用

Facebookの強力なwav2vec2-xls-r-300mアーキテクチャをベースモデルとして採用しています

トルコ語音声認識

音素レベル分析

音声テキスト変換

音声文字起こし

トルコ語音声テキスト化

トルコ語音声コンテンツをテキストに変換

音素誤り率16.64%

音声分析

音素研究

言語学研究やトルコ語の音素分析に使用

このモデルは、COMMON_VOICE - TRデータセットでwav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

このモデルは、自動音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceの公式ドキュメントを参照してください。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

詳細な情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです：

学習損失	エポック	ステップ	検証損失	音素誤り率 (PER)
13.6687	0.92	100	12.4567	1.0
3.4219	1.83	200	3.4704	1.0
3.1846	2.75	300	3.2281	0.9935
2.0076	3.67	400	1.7415	0.5222
1.0244	4.59	500	1.0290	0.3323
0.7095	5.5	600	0.8424	0.2859
0.619	6.42	700	0.7389	0.2232
0.3541	7.34	800	0.7049	0.2043
0.2946	8.26	900	0.7065	0.2153
0.2868	9.17	1000	0.6840	0.2115
0.2245	10.09	1100	0.6714	0.1952
0.1394	11.01	1200	0.6864	0.1954
0.1288	11.93	1300	0.6696	0.2017
0.1568	12.84	1400	0.6468	0.1843
0.1269	13.76	1500	0.6736	0.1965
0.1101	14.68	1600	0.6689	0.1915
0.1388	15.6	1700	0.6690	0.1782
0.0739	16.51	1800	0.6364	0.1734
0.0897	17.43	1900	0.6480	0.1748
0.0795	18.35	2000	0.6356	0.1695
0.0823	19.27	2100	0.6382	0.1685