wav2vec2-large-xls-r-300m-sat-a3开源模型 - 精准开展桑塔利语自动语音识别

首页

Wav2vec2 Large Xls R 300m Sat A3

由 DrishtiSharma 开发

基于Facebook的wav2vec2-xls-r-300m模型在桑塔利语(Ol Chiki)语音数据集上微调的自动语音识别(ASR)模型

语音识别

Transformers

其他开源协议:Apache-2.0 #桑塔利语语音识别 #低词错误率 #多场景适配

下载量 29

发布时间 : 3/2/2022

模型简介

该模型是针对桑塔利语优化的自动语音识别系统，在Common Voice 8数据集上训练，支持将桑塔利语语音转换为文本

模型特点

桑塔利语优化

专门针对桑塔利语(Ol Chiki)进行微调，提供更好的语音识别准确率

基于XLS-R架构

使用Facebook强大的wav2vec2-XLS-R-300m作为基础模型

多场景适用

在Common Voice数据集上表现良好，适用于多种语音识别场景

模型能力

桑塔利语语音识别

语音转文本

自动语音识别

使用案例

语音转录

桑塔利语语音转录

将桑塔利语语音内容转换为文本

在Common Voice 8测试集上WER为0.357，CER为0.142

语音助手

桑塔利语语音指令识别

用于桑塔利语语音助手或交互系统

🚀 wav2vec2-large-xls-r-300m-sat-a3

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - SAT数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调后的版本。它在自动语音识别任务中表现出色，能够有效处理相关语音数据，为语音识别领域提供了有力支持。

📚 详细文档

模型信息

属性	详情
语言	sat
许可证	apache - 2.0
标签	automatic - speech - recognition、mozilla - foundation/common_voice_8_0、generated_from_trainer、sat、robust - speech - event、model_for_talk、hf - asr - leaderboard
数据集	mozilla - foundation/common_voice_8_0

模型索引

名称：wav2vec2 - large - xls - r - 300m - sat - a3
结果：
- 任务：
  - 名称：自动语音识别
  - 类型：automatic - speech - recognition
  - 数据集：
    - 名称：Common Voice 8
    - 类型：mozilla - foundation/common_voice_8_0
    - 参数：sat
  - 指标：
    - 名称：Test WER
    - 类型：wer
    - 值：0.357429718875502
    - 名称：Test CER
    - 类型：cer
    - 值：0.14203730272596843
- 任务：
  - 名称：自动语音识别
  - 类型：automatic - speech - recognition
  - 数据集：
    - 名称：Robust Speech Event - Dev Data
    - 类型：speech - recognition - community - v2/dev_data
    - 参数：sat
  - 指标：
    - 名称：Test WER
    - 类型：wer
    - 值：NA
    - 名称：Test CER
    - 类型：cer
    - 值：NA

评估结果

该模型在评估集上取得了以下结果：

损失：0.8961
字错率（Wer）：0.3976

评估命令

在mozilla - foundation/common_voice_8_0测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sat-a3 --dataset mozilla-foundation/common_voice_8_0 --config sat --split test --log_outputs

在speech - recognition - community - v2/dev_data上进行评估

⚠️ 重要提示

Santali (Ol Chiki)语言在speech - recognition - community - v2/dev_data中未找到。

训练超参数

训练过程中使用了以下超参数：

学习率：0.0004
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：200
训练轮数：200
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
11.1266	33.29	100	2.8577	1.0
2.1549	66.57	200	1.0799	0.5542
0.5628	99.86	300	0.7973	0.4016
0.0779	133.29	400	0.8424	0.4177
0.0404	166.57	500	0.9048	0.4137
0.0212	199.86	600	0.8961	0.3976