xls-r-300m-es开源语音识别模型 - 精准实现西班牙语语音识别

首页

Xls R 300m Es

由 polodealvarado 开发

基于西班牙语Common Voice数据集微调的语音识别模型，采用facebook/wav2vec2-xls-r-300m架构，在测试集上WER达到14.6%

语音识别

Transformers

西班牙语开源协议:Apache-2.0 #西班牙语语音识别 #低WER模型 #5-gram语言模型集成

下载量 23

发布时间 : 3/2/2022

模型简介

这是一个针对西班牙语优化的自动语音识别(ASR)模型，通过微调XLS-R-300M预训练模型实现，适用于西班牙语语音转文本任务。

模型特点

高性能西班牙语识别

在Common Voice 8.0西班牙语测试集上达到14.6%的WER指标

支持5-gram语言模型

内置n-gram(n=5)语言模型支持，可将WER进一步降低至10.9%

优化的训练配置

采用线性学习率调度和混合精度训练，经过13轮优化训练

模型能力

西班牙语语音识别

实时语音转文本

长音频处理

使用案例

语音转录

西班牙语会议记录

将西班牙语会议录音自动转换为文字记录

准确率达85.4% (WER 14.6)

语音助手开发

用于开发西班牙语语音助手和对话系统

语音分析

语音内容分析

分析西班牙语语音内容进行情感分析或关键词提取

🚀 Wav2Vec2-XLSR-300m-es

本模型是facebook/wav2vec2-xls-r-300m在西班牙语Common Voice数据集上的微调版本。这得益于OVHcloud为语音识别挑战慷慨提供的GPU计算资源。该模型在评估集上取得了以下成果：

无语言模型（LM）时：

损失：0.1900
字错率（WER）：0.146

使用5-gram语言模型时：

字错率（WER）：0.109
字符错误率（CER）：0.036

🚀 快速开始

模型使用

本模型可以结合处理器中包含的n-gram（n = 5）使用，示例代码如下：

import re
from transformers import AutoModelForCTC,Wav2Vec2ProcessorWithLM
import torch

# Loading model and processor
processor = Wav2Vec2ProcessorWithLM.from_pretrained("polodealvarado/xls-r-300m-es")
model = AutoModelForCTC.from_pretrained("polodealvarado/xls-r-300m-es")

# Cleaning characters
def remove_extra_chars(batch):
    chars_to_ignore_regex = '[^a-záéíóúñ ]'
    text = batch["translation"][target_lang]
    batch["text"] = re.sub(chars_to_ignore_regex, "", text.lower())
    return batch
    
# Preparing dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"],return_tensors="pt",padding=True).input_values[0]    
    with processor.as_target_processor():
        batch["labels"] = processor(batch["sentence"]).input_ids
    return batch
  

common_voice_test = load_dataset("mozilla-foundation/common_voice_8_0", "es", split="test",use_auth_token=True)
common_voice_test = common_voice_test.remove_columns(["accent", "age", "client_id", "down_votes", "gender", "locale", "segment", "up_votes"])
common_voice_test = common_voice_test.cast_column("audio", Audio(sampling_rate=16_000))        
common_voice_test = common_voice_test.map(remove_extra_chars, remove_columns=dataset.column_names)
common_voice_test = common_voice_test.map(prepare_dataset)

# Testing first sample
inputs = torch_tensor(common_voice_test[0]["input_values"])

with torch.no_grad():
    logits = model(inputs).logits

pred_ids = torch.argmax(logits, dim=-1)
text = processor.batch_decode(logits.numpy()).text
print(text) # 'bien y qué regalo vas a abrir primero'

另外，你可以执行eval.py文件进行评估：


# To use GPU: --device 0

$ python eval.py --model_id polodealvarado/xls-r-300m-es --dataset mozilla-foundation/common_voice_8_0 --config es --device 0 --split test

✨ 主要特性

本模型在语音识别任务上有良好表现，尤其在西班牙语的Common Voice数据集上进行了微调，能有效处理西班牙语语音识别任务。通过不同的评估指标（如WER、CER）可以看出模型在不同场景下的性能。

📦 安装指南

文档中未提及安装相关内容，可参考transformers、torch等库的官方安装指南进行安装。

💻 使用示例

基础用法

import re
from transformers import AutoModelForCTC,Wav2Vec2ProcessorWithLM
import torch

# Loading model and processor
processor = Wav2Vec2ProcessorWithLM.from_pretrained("polodealvarado/xls-r-300m-es")
model = AutoModelForCTC.from_pretrained("polodealvarado/xls-r-300m-es")

# Cleaning characters
def remove_extra_chars(batch):
    chars_to_ignore_regex = '[^a-záéíóúñ ]'
    text = batch["translation"][target_lang]
    batch["text"] = re.sub(chars_to_ignore_regex, "", text.lower())
    return batch
    
# Preparing dataset
def prepare_dataset(batch):
    audio = batch["audio"]
    batch["input_values"] = processor(audio["array"], sampling_rate=audio["sampling_rate"],return_tensors="pt",padding=True).input_values[0]    
    with processor.as_target_processor():
        batch["labels"] = processor(batch["sentence"]).input_ids
    return batch
  

common_voice_test = load_dataset("mozilla-foundation/common_voice_8_0", "es", split="test",use_auth_token=True)
common_voice_test = common_voice_test.remove_columns(["accent", "age", "client_id", "down_votes", "gender", "locale", "segment", "up_votes"])
common_voice_test = common_voice_test.cast_column("audio", Audio(sampling_rate=16_000))        
common_voice_test = common_voice_test.map(remove_extra_chars, remove_columns=dataset.column_names)
common_voice_test = common_voice_test.map(prepare_dataset)

# Testing first sample
inputs = torch_tensor(common_voice_test[0]["input_values"])

with torch.no_grad():
    logits = model(inputs).logits

pred_ids = torch.argmax(logits, dim=-1)
text = processor.batch_decode(logits.numpy()).text
print(text) # 'bien y qué regalo vas a abrir primero'

高级用法


# To use GPU: --device 0

$ python eval.py --model_id polodealvarado/xls-r-300m-es --dataset mozilla-foundation/common_voice_8_0 --config es --device 0 --split test

📚 详细文档

训练超参数

训练过程中使用了以下超参数：

学习率：0.0003
训练批次大小：16
评估批次大小：8
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：4
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	字错率（WER）
3.6747	0.3	400	0.6535	0.5926
0.4439	0.6	800	0.3753	0.3193
0.3291	0.9	1200	0.3267	0.2721
0.2644	1.2	1600	0.2816	0.2311
0.24	1.5	2000	0.2647	0.2179
0.2265	1.79	2400	0.2406	0.2048
0.1994	2.09	2800	0.2357	0.1869
0.1613	2.39	3200	0.2242	0.1821
0.1546	2.69	3600	0.2123	0.1707
0.1441	2.99	4000	0.2067	0.1619
0.1138	3.29	4400	0.2044	0.1519
0.1072	3.59	4800	0.1917	0.1457
0.0992	3.89	5200	0.1900	0.1438