wav2vec2-base-common-voice-persian-colabオープンソースモデル - 無料でペルシア語の音声を正確にテキストに変換する

Wav2vec2 Base Common Voice Persian Colab

zohaによって開発

このモデルはfacebook/wav2vec2-baseをペルシア語データセットでファインチューニングした音声認識モデルで、主にペルシア語音声からテキストへの変換タスクに使用されます。

ダウンロード数 21

リリース時間 : 5/26/2022

モデル概要

これはペルシア語に最適化された自動音声認識(ASR)モデルで、wav2vec2アーキテクチャに基づき、Common Voiceペルシア語データセットでファインチューニングされており、ペルシア語音声の文字起こしシナリオに適しています。

ペルシア語最適化

ペルシア語音声特性に特化してファインチューニングされており、ペルシア語認識精度を向上させます

wav2vec2ベース

Facebookがオープンソース化したwav2vec2-baseアーキテクチャを採用し、強力な音声特徴抽出能力を備えています

Colab互換

モデル名が示す通り、Google Colab環境での使用に適しています

ペルシア語音声認識

音声からテキストへの変換

音声コンテンツの文字起こし

音声文字起こし

ペルシア語音声のテキスト化

ペルシア語音声コンテンツをテキスト形式に変換します

単語誤り率(WER)0.6911

音声アシスタント

ペルシア語音声コマンド認識

ペルシア語音声アシスタントや制御システムの音声コマンド認識に使用されます

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは音声関連のタスクに使用できます。ファインチューニングにより、特定の音声データセットに適応されています。

このモデルは、音声認識や関連タスクに使用されるwav2vec2ベースのモデルです。特定のデータセットでファインチューニングされていますが、詳細な情報は今後の更新で提供される予定です。

このモデルの想定される用途と制限に関する詳細情報は、今後の更新で提供される予定です。

学習と評価に使用されたデータに関する詳細情報は、今後の更新で提供される予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
ログなし	1.26	300	3.0670	1.0
3.3475	2.52	600	2.5530	1.0
3.3475	3.78	900	1.4598	0.9555
2.0348	5.04	1200	1.2189	0.8797
1.0817	6.3	1500	1.1242	0.8268
1.0817	7.56	1800	1.0764	0.7957
0.7973	8.82	2100	1.1023	0.7863
0.7973	10.08	2400	1.0583	0.7785
0.6514	11.34	2700	1.0963	0.7512
0.5878	12.61	3000	1.1200	0.7494
0.5878	13.87	3300	1.0396	0.7402
0.484	15.13	3600	1.1407	0.7340
0.484	16.39	3900	1.1534	0.7584
0.4384	17.65	4200	1.0973	0.7236
0.3966	18.91	4500	1.0623	0.7358
0.3966	20.17	4800	1.1655	0.7112
0.3408	21.43	5100	1.1825	0.7084
0.3408	22.69	5400	1.1436	0.7029
0.3274	23.95	5700	1.1077	0.6988
0.2948	25.21	6000	1.1454	0.7066
0.2948	26.47	6300	1.1411	0.6956
0.2545	27.73	6600	1.0952	0.6918
0.2545	28.99	6900	1.1446	0.6911