wav2vec2-large-xls-r-300m-sat-a3開源模型 - 精準開展桑塔利語自動語音識別

首頁

Wav2vec2 Large Xls R 300m Sat A3

由DrishtiSharma開發

基於Facebook的wav2vec2-xls-r-300m模型在桑塔利語(Ol Chiki)語音數據集上微調的自動語音識別(ASR)模型

語音識別

Transformers

其他開源協議:Apache-2.0 #桑塔利語語音識別 #低詞錯誤率 #多場景適配

下載量 29

發布時間 : 3/2/2022

模型概述

該模型是針對桑塔利語優化的自動語音識別系統，在Common Voice 8數據集上訓練，支持將桑塔利語語音轉換為文本

模型特點

桑塔利語優化

專門針對桑塔利語(Ol Chiki)進行微調，提供更好的語音識別準確率

基於XLS-R架構

使用Facebook強大的wav2vec2-XLS-R-300m作為基礎模型

多場景適用

在Common Voice數據集上表現良好，適用於多種語音識別場景

模型能力

桑塔利語語音識別

語音轉文本

自動語音識別

使用案例

語音轉錄

桑塔利語語音轉錄

將桑塔利語語音內容轉換為文本

在Common Voice 8測試集上WER為0.357，CER為0.142

語音助手

桑塔利語語音指令識別

用於桑塔利語語音助手或交互系統

🚀 wav2vec2-large-xls-r-300m-sat-a3

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SAT數據集上對[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)進行微調後的版本。它在自動語音識別任務中表現出色，能夠有效處理相關語音數據，為語音識別領域提供了有力支持。

📚 詳細文檔

模型信息

屬性	詳情
語言	sat
許可證	apache - 2.0
標籤	automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、sat、robust - speech - event、model_for_talk、hf - asr - leaderboard
數據集	mozilla - foundation/common_voice_8_0

模型索引

名稱：wav2vec2 - large - xls - r - 300m - sat - a3
結果：
- 任務：
  - 名稱：自動語音識別
  - 類型：automatic - speech - recognition
  - 數據集：
    - 名稱：Common Voice 8
    - 類型：mozilla - foundation/common_voice_8_0
    - 參數：sat
  - 指標：
    - 名稱：Test WER
    - 類型：wer
    - 值：0.357429718875502
    - 名稱：Test CER
    - 類型：cer
    - 值：0.14203730272596843
- 任務：
  - 名稱：自動語音識別
  - 類型：automatic - speech - recognition
  - 數據集：
    - 名稱：Robust Speech Event - Dev Data
    - 類型：speech - recognition - community - v2/dev_data
    - 參數：sat
  - 指標：
    - 名稱：Test WER
    - 類型：wer
    - 值：NA
    - 名稱：Test CER
    - 類型：cer
    - 值：NA

評估結果

該模型在評估集上取得了以下結果：

損失：0.8961
字錯率（Wer）：0.3976

評估命令

在mozilla - foundation/common_voice_8_0測試分割集上進行評估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sat-a3 --dataset mozilla-foundation/common_voice_8_0 --config sat --split test --log_outputs

在speech - recognition - community - v2/dev_data上進行評估

⚠️ 重要提示

Santali (Ol Chiki)語言在speech - recognition - community - v2/dev_data中未找到。

訓練超參數

訓練過程中使用了以下超參數：

學習率：0.0004
訓練批次大小：16
評估批次大小：8
隨機種子：42
梯度累積步數：2
總訓練批次大小：32
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器熱身步數：200
訓練輪數：200
混合精度訓練：Native AMP

訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
11.1266	33.29	100	2.8577	1.0
2.1549	66.57	200	1.0799	0.5542
0.5628	99.86	300	0.7973	0.4016
0.0779	133.29	400	0.8424	0.4177
0.0404	166.57	500	0.9048	0.4137
0.0212	199.86	600	0.8961	0.3976