wav2vec2-base-common-voice-40p-persian-colabオープンソースモデル - 無料でデプロイしてペルシャ語の音声をテキストに変換する

Wav2vec2 Base Common Voice 40p Persian Colab

zohaによって開発

このモデルはfacebook/wav2vec2-baseをペルシャ語データセットでファインチューニングした音声認識モデルで、主にペルシャ語音声からテキストへの変換タスクに使用されます。

ダウンロード数 120

リリース時間 : 6/26/2022

モデル概要

これはペルシャ語に最適化された自動音声認識(ASR)モデルで、wav2vec2アーキテクチャに基づき、Common Voiceペルシャ語データセットで40エポックのファインチューニングを行いました。

ペルシャ語最適化

ペルシャ語の音声特性に特化して最適化されたトレーニング

wav2vec2ベース

Facebookがオープンソース化したwav2vec2-baseアーキテクチャをベースモデルとして採用

中規模トレーニング

40エポックのトレーニングを経て、検証セットで0.6024の単語誤り率を達成

ペルシャ語音声認識

音声からテキストへの変換

音声文字起こし

ペルシャ語音声文字起こし

ペルシャ語の音声コンテンツをテキストに変換

単語誤り率0.6024

音声アシスタント

ペルシャ語音声コマンド認識

ペルシャ語音声アシスタントのコマンド認識システムに使用

このモデルは、音声認識タスクにおいて、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたものです。評価セットでは以下の結果を達成しています。

このモデルは音声認識タスクに使用できます。以下に評価セットでの結果を示します。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.9643	1.05	200	3.0107	1.0
2.7552	2.11	400	2.7370	0.9997
1.9144	3.16	600	1.8266	0.9703
1.502	4.21	800	1.3981	0.8996
1.3155	5.26	1000	1.2148	0.8507
0.9471	6.32	1200	1.1698	0.7860
0.8391	7.37	1400	1.1106	0.7857
0.7986	8.42	1600	1.1858	0.7769
0.7692	9.47	1800	1.1227	0.7603
0.7871	10.53	2000	1.0626	0.7612
0.6795	11.58	2200	1.1249	0.7209
0.4842	12.63	2400	1.1626	0.7336
0.492	13.68	2600	1.0995	0.7212
0.5117	14.74	2800	1.1406	0.7105
0.5649	15.79	3000	1.0603	0.6819
0.3232	16.84	3200	1.1781	0.7070
0.4098	17.89	3400	1.1182	0.6764
0.3917	18.95	3600	1.1320	0.6750
0.3712	20.0	3800	1.1920	0.6724
0.3157	21.05	4000	1.1102	0.6786
0.2397	22.11	4200	1.1924	0.6519
0.2751	23.16	4400	1.1497	0.6468
0.2279	24.21	4600	1.2274	0.6400
0.393	25.26	4800	1.1741	0.6436
0.1748	26.32	5000	1.2038	0.6327
0.1727	27.37	5200	1.1639	0.6347
0.255	28.42	5400	1.1948	0.6367
0.2261	29.47	5600	1.1560	0.6362
0.2359	30.53	5800	1.1227	0.6269
0.1668	31.58	6000	1.1861	0.6295
0.1699	32.63	6200	1.2442	0.6314
0.14	33.68	6400	1.1340	0.6277
0.1919	34.74	6600	1.1691	0.6139
0.2527	35.79	6800	1.1511	0.6110
0.1219	36.84	7000	1.2062	0.6139
0.1389	37.89	7200	1.2142	0.6072
0.135	38.95	7400	1.1967	0.6040
0.1563	40.0	7600	1.1805	0.6024