wav2vec2-base-common-voice-fa-demo-colabオープンソースモデル - 簡単にペルシア語の音声をテキストに変換できます

Wav2vec2 Base Common Voice Fa Demo Colab

zohaによって開発

このモデルはfacebook/wav2vec2-baseをファインチューニングしたペルシャ語音声認識モデルで、ペルシャ語音声からテキストへの変換タスクに適しています。

ダウンロード数 15

リリース時間 : 4/18/2022

モデル概要

これはペルシャ語に最適化された音声認識モデルで、wav2vec2アーキテクチャに基づき、Common Voiceのペルシャ語データセットでファインチューニングされています。

ペルシャ語最適化

ペルシャ語の音声特性に特化してファインチューニングされています

wav2vec2アーキテクチャベース

Facebookのwav2vec2-baseをベースモデルとして採用

低い単語誤り率

評価データセットで1.0の単語誤り率を達成

ペルシャ語音声認識

音声からテキストへの変換

音声書き起こし

ペルシャ語音声転写

ペルシャ語の音声内容をテキストに変換

単語誤り率1.0

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.1626	0.3	100	4.0692	1.0
5.1776	0.6	200	3.6640	1.0
3.6628	0.9	300	3.3832	1.0
3.2022	1.2	400	3.3492	1.0
3.1714	1.5	500	3.3215	1.0
3.0689	1.8	600	3.0806	1.0
3.1478	2.1	700	3.0624	1.0
3.1818	2.4	800	3.0777	1.0
3.159	2.7	900	3.0558	1.0