wav2vec2-large-xls-r-300mアムハラ语音声认识モデル - オープンソースで无料、高精度な音声认识

Wav2vec2 Large Xls R 300m Amharic Demo Colab

DipsankarSinhaによって開発

facebook/wav2vec2-xls-r-300mをcommon_voice_16_1データセットでファインチューニングしたアムハラ語音声認識モデル

ダウンロード数 18

リリース時間 : 6/23/2024

モデル概要

このモデルはアムハラ語に最適化された自動音声認識(ASR)モデルで、wav2vec2-xls-rアーキテクチャに基づき、Common Voiceデータセットでファインチューニングされています。

wav2vec2-xls-rアーキテクチャ採用

強力なwav2vec2-xls-r-300mをベースモデルとして使用し、優れた音声特徴抽出能力を備えています

アムハラ語最適化

アムハラ語に特化してファインチューニングされており、特定言語の音声特徴に適応しています

Common Voiceデータセットで訓練

Common Voice 16.1データセットを使用して訓練されており、データの多様性と代表性が確保されています

アムハラ語音声認識

音声からテキストへの変換

音声文字起こし

アムハラ語音声転写

アムハラ語音声をテキストに変換

単語誤り率0.8639

音声アシスタント

アムハラ語音声インタラクション

アムハラ語をサポートする音声アシスタントアプリケーションの構築に使用

このモデルは、facebook/wav2vec2-xls-r-300m を common_voice_16_1 データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
12.6948	5.0	100	4.1621	1.0
4.1026	10.0	200	4.0365	1.0
4.0037	15.0	300	3.9726	1.0007
3.9485	20.0	400	3.9524	1.0007
3.4635	25.0	500	2.4384	0.9980
1.1709	30.0	600	1.6987	0.9453
0.4955	35.0	700	1.5927	0.9073
0.3163	40.0	800	1.6750	0.8833
0.2372	45.0	900	1.6683	0.8813
0.1896	50.0	1000	1.6555	0.8779
0.1619	55.0	1100	1.6312	0.8819
0.1473	60.0	1200	1.6333	0.8639