xls-r-300m-te開源自動語音識別模型 - 精準識別泰盧固語語音內容

首頁

Xls R 300m Te

由chmanoj開發

基於facebook/wav2vec2-xls-r-300m在OpenSLR SLR66泰盧固語數據集上微調的自動語音識別模型

語音識別

Transformers

其他開源協議:Apache-2.0 #泰盧固語語音識別 #低詞錯誤率 #XLS-R架構

下載量 25

發布時間 : 3/2/2022

模型概述

該模型是針對泰盧固語的自動語音識別(ASR)系統，能夠將泰盧固語語音轉換為文本。

模型特點

高精度泰盧固語識別

在OpenSLR SLR66測試集上達到24.7%的詞錯誤率和4.86%的字錯誤率

基於XLS-R架構

使用facebook的wav2vec2-xls-r-300m作為基礎模型，具有強大的語音特徵提取能力

開源許可

採用Apache-2.0許可證，允許商業和研究用途

模型能力

泰盧固語語音識別

語音轉文本

支持長音頻處理

使用案例

語音轉錄

泰盧固語會議記錄

將泰盧固語會議錄音自動轉換為文字記錄

準確率約75.3%(基於WER指標)

語音助手

為泰盧固語用戶提供語音交互功能

教育

語言學習輔助

幫助學習者練習泰盧固語發音和聽力

🚀 xls-r-300m-te 模型

本模型是基於自動語音識別任務的微調模型，在OPENSLR_SLR66 - NA數據集上對 facebook/wav2vec2-xls-r-300m 進行微調。該模型在評估集上取得了良好的效果，為語音識別任務提供了有力支持。

🚀 快速開始

此模型是 facebook/wav2vec2-xls-r-300m 在OPENSLR_SLR66 - NA數據集上的微調版本。它在評估集上取得了以下結果：

損失值：0.2680
字錯率（Wer）：0.3467

📄 許可證

本模型採用Apache-2.0許可證。

📚 詳細文檔

模型信息

屬性	詳情
語言	泰盧固語（te）
許可證	Apache-2.0
標籤	自動語音識別、openslr_SLR66、由訓練器生成、魯棒語音事件、hf-asr-leaderboard
數據集	openslr、SLR66
評估指標	字錯率（wer）

模型表現

模型名稱	任務類型	數據集	評估指標	值	指標名稱
xls-r-300m-te	自動語音識別	Open SLR（SLR66）	wer	24.695121951219512	測試字錯率（Test WER）
xls-r-300m-te	自動語音識別	Open SLR（SLR66）	cer	4.861934182322532	測試字符錯誤率（Test CER）

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：7.5e-05
訓練批次大小（train_batch_size）：16
評估批次大小（eval_batch_size）：16
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：4
總訓練批次大小（total_train_batch_size）：64
優化器（optimizer）：Adam（β1=0.9，β2=0.999，ε=1e-08）
學習率調度器類型（lr_scheduler_type）：線性
學習率調度器熱身步數（lr_scheduler_warmup_steps）：2000
訓練輪數（num_epochs）：10.0
混合精度訓練（mixed_precision_training）：原生自動混合精度（Native AMP）

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.0304	4.81	500	1.5676	1.0554
1.5263	9.61	1000	0.4693	0.8023
1.5299	14.42	1500	0.4368	0.7311
1.5063	19.23	2000	0.4360	0.7302
1.455	24.04	2500	0.4213	0.6692
1.4755	28.84	3000	0.4329	0.5943
1.352	33.65	3500	0.4074	0.5765
1.3122	38.46	4000	0.3866	0.5630
1.2799	43.27	4500	0.3860	0.5480
1.212	48.08	5000	0.3590	0.5317
1.1645	52.88	5500	0.3283	0.4757
1.0854	57.69	6000	0.3162	0.4687
1.0292	62.5	6500	0.3126	0.4416
0.9607	67.31	7000	0.2990	0.4066
0.9156	72.12	7500	0.2870	0.4009
0.8329	76.92	8000	0.2791	0.3909
0.7979	81.73	8500	0.2770	0.3670
0.7144	86.54	9000	0.2841	0.3661
0.6997	91.35	9500	0.2721	0.3485
0.6568	96.15	10000	0.2681	0.3437