wav2vec2-base-common-voice-50p-persian-colabオープンソースモデル - 無料でペルシャ語の音声をテキストに変換できる

Wav2vec2 Base Common Voice 50p Persian Colab

zohaによって開発

このモデルはfacebook/wav2vec2-baseをペルシア語データセットでファインチューニングした音声認識モデルで、ペルシア語音声からテキストへの変換タスクをサポートします。

ダウンロード数 21

リリース時間 : 6/2/2022

モデル概要

これはペルシア語に最適化された自動音声認識(ASR)モデルで、wav2vec2アーキテクチャに基づき、Common Voiceペルシア語データセットでファインチューニングされています。

ペルシア語最適化

ペルシア語音声認識タスクに特化してファインチューニングされています

wav2vec2ベース

Facebookのwav2vec2-baseアーキテクチャをベースモデルとして採用

中程度の性能

評価データセットで65.37%の単語誤り率(WER)を達成

ペルシア語音声認識

音声からテキストへの変換

音声文字起こし

ペルシア語音声文字起こし

ペルシア語音声コンテンツをテキストに変換

単語誤り率約65.37%

音声アシスタント

ペルシア語音声コマンド認識

ペルシア語音声アシスタントの基本音声認識コンポーネントとして使用

このモデルは、facebook/wav2vec2-base をNoneデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声関連のタスクに使用できます。評価セットでの損失と単語誤り率の結果を参考に、適用性を判断できます。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.0437	2.52	600	3.0170	1.0
2.3667	5.04	1200	2.1575	0.9988
0.9565	7.56	1800	1.0801	0.8410
0.603	10.08	2400	0.9680	0.7678
0.507	12.61	3000	0.9554	0.7470
0.3754	15.13	3600	0.9524	0.7157
0.4267	17.65	4200	0.9290	0.6980
0.3308	20.17	4800	0.9557	0.7061
0.2259	22.69	5400	0.9864	0.6830
0.2486	25.21	6000	1.1086	0.6812
0.1956	27.73	6600	1.0497	0.6805
0.1835	30.25	7200	1.0660	0.6596
0.1926	32.77	7800	1.1274	0.6600
0.2765	35.29	8400	1.0882	0.6603
0.2397	37.82	9000	1.0939	0.6537