wav2vec2-large-xlsr-53-spanish开源模型 - 精准支持西班牙语语音识别

首页

Wav2vec2 Large Xlsr 53 Spanish

由 jonatasgrosman 开发

基于facebook/wav2vec2-large-xlsr-53模型微调的西班牙语语音识别模型，在Common Voice 6.1西班牙语数据集上训练

语音识别西班牙语开源协议:Apache-2.0 #西班牙语语音识别 #低词错误率(6.27)#XLSR-53微调

下载量 46.28k

发布时间 : 3/2/2022

模型简介

针对西班牙语优化的自动语音识别(ASR)模型，支持16kHz采样率的语音输入转换为文本

模型特点

高性能西班牙语识别

在Common Voice西班牙语测试集上达到8.82%的词错误率(WER)

语言模型增强

结合语言模型后词错误率可降至6.27%，显著提升识别准确率

基于XLSR-53大模型

基于facebook/wav2vec2-large-xlsr-53模型微调，具备强大的语音特征提取能力

模型能力

西班牙语语音识别

音频转文本

支持16kHz采样率音频处理

使用案例

语音转录

语音内容转录

将西班牙语语音内容转换为文本格式

高准确率的转录结果

语音助手

西班牙语语音交互

为西班牙语语音助手提供语音识别能力

🚀 用于西班牙语语音识别的微调XLSR - 53大型模型

本项目是在西班牙语数据集上对 facebook/wav2vec2-large-xlsr-53 模型进行微调的成果。使用的训练和验证集来自 Common Voice 6.1。使用该模型时，请确保语音输入的采样率为16kHz。

此模型的微调得益于 OVHcloud 慷慨提供的GPU计算资源。训练脚本可在此处找到。

🚀 快速开始

本模型可直接使用（无需语言模型），下面为你介绍具体使用方法。

✨ 主要特性

数据集：使用 common_voice 和 mozilla-foundation/common_voice_6_0 数据集进行训练。
评估指标：使用 wer（词错误率）和 cer（字符错误率）进行评估。
适用场景：适用于西班牙语的自动语音识别任务。

属性	详情
模型类型	用于西班牙语语音识别的微调XLSR - 53大型模型
训练数据	common_voice、mozilla - foundation/common_voice_6_0

📦 安装指南

文档未提供具体安装步骤，可参考相关依赖库的安装说明，如 transformers、librosa、datasets 等。

💻 使用示例

基础用法

使用 HuggingSound 库进行语音识别：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-spanish")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "es"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分预测结果示例：

参考文本	预测文本
HABITA EN AGUAS POCO PROFUNDAS Y ROCOSAS.	HABITAN AGUAS POCO PROFUNDAS Y ROCOSAS
OPERA PRINCIPALMENTE VUELOS DE CABOTAJE Y REGIONALES DE CARGA.	OPERA PRINCIPALMENTE VUELO DE CARBOTAJES Y REGIONALES DE CARGAN
PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN.	PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN
TRES	TRES
REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA, PARA CONTINUAR LUEGO EN ESPAÑA.	REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA PARA CONTINUAR LUEGO EN ESPAÑA
EN LOS AÑOS QUE SIGUIERON, ESTE TRABAJO ESPARTA PRODUJO DOCENAS DE BUENOS JUGADORES.	EN LOS AÑOS QUE SIGUIERON ESTE TRABAJO ESPARTA PRODUJO DOCENA DE BUENOS JUGADORES
SE ESTÁ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS.	SE ESTÓ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS
SÍ	SÍ
"FUE ""SACADA"" DE LA SERIE EN EL EPISODIO ""LEAD"", EN QUE ALEXANDRA CABOT REGRESÓ."	FUE SACADA DE LA SERIE EN EL EPISODIO LEED EN QUE ALEXANDRA KAOT REGRESÓ
SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOKA, EN LA PROVINCIA DE BIOKO SUR.	SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOCA EN LA PROVINCIA DE PÍOCOSUR

📚 详细文档

评估

在 mozilla-foundation/common_voice_6_0 数据集的 test 分割上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset mozilla-foundation/common_voice_6_0 --config es --split test

在 speech-recognition-community-v2/dev_data 数据集上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset speech-recognition-community-v2/dev_data --config es --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 许可证

本项目采用 apache - 2.0 许可证。

🔖 引用

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021xlsr53-large-spanish,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {S}panish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish}},
  year={2021}
}