wav2vec2-large-xls-r-300m阿姆哈拉語語音識別模型

Wav2vec2 Large Xls R 300m Amharic Demo Colab

由DipsankarSinha開發

基於facebook/wav2vec2-xls-r-300m在common_voice_16_1數據集上微調的阿姆哈拉語語音識別模型

下載量 18

發布時間 : 6/23/2024

模型概述

該模型是針對阿姆哈拉語優化的自動語音識別(ASR)模型，基於wav2vec2-xls-r架構，在Common Voice數據集上微調。

基於wav2vec2-xls-r架構

採用強大的wav2vec2-xls-r-300m作為基礎模型，具備優秀的語音特徵提取能力

阿姆哈拉語優化

專門針對阿姆哈拉語進行微調，適應特定語言的語音特徵

Common Voice數據集訓練

使用Common Voice 16.1數據集進行訓練，確保數據多樣性和代表性

阿姆哈拉語語音識別

音頻轉文本

語音轉寫

阿姆哈拉語語音轉錄

將阿姆哈拉語語音轉換為文本

詞錯誤率0.8639

語音助手

阿姆哈拉語語音交互

用於構建支持阿姆哈拉語的語音助手應用

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
12.6948	5.0	100	4.1621	1.0
4.1026	10.0	200	4.0365	1.0
4.0037	15.0	300	3.9726	1.0007
3.9485	20.0	400	3.9524	1.0007
3.4635	25.0	500	2.4384	0.9980
1.1709	30.0	600	1.6987	0.9453
0.4955	35.0	700	1.5927	0.9073
0.3163	40.0	800	1.6750	0.8833
0.2372	45.0	900	1.6683	0.8813
0.1896	50.0	1000	1.6555	0.8779
0.1619	55.0	1100	1.6312	0.8819
0.1473	60.0	1200	1.6333	0.8639