wav2vec2-large-xlsr-53-spanish开源模型 - 免费部署精准识别西班牙语语音

首页

Wav2vec2 Large Xlsr 53 Spanish

由 LuisG07 开发

基于facebook/wav2vec2-large-xlsr-53模型微调的西班牙语自动语音识别(ASR)模型，在Common Voice西班牙语数据集上训练，支持16kHz采样率的语音输入。

语音识别西班牙语开源协议:Apache-2.0 #西班牙语语音识别 #低词错误率(WER)#XLSR微调

下载量 50

发布时间 : 3/2/2022

模型简介

这是一个用于西班牙语自动语音识别(ASR)的Wav2Vec2模型，基于XLSR-53架构微调而成，能够将西班牙语语音转换为文本。

模型特点

高精度识别

在Common Voice西班牙语测试集上达到8.82%的词错误率(WER)和2.58%的字错误率(CER)

语言模型增强

结合语言模型后，词错误率可进一步降低至6.27%，字错误率降至2.06%

16kHz采样率支持

专门优化用于处理16kHz采样率的语音输入

开源许可

采用Apache-2.0许可证，允许商业和研究使用

模型能力

西班牙语语音识别

语音转文本

自动语音转录

使用案例

语音转录

语音内容转录

将西班牙语语音内容自动转换为文本

高准确率的转录结果

语音助手

西班牙语语音命令识别

用于构建西班牙语语音助手或命令控制系统

🚀 Wav2Vec2-Large-XLSR-53-西班牙语模型

本项目在 https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish 的基础上添加了自定义语言模型。它基于 Common Voice 数据集，在西班牙语数据上对 facebook/wav2vec2-large-xlsr-53 模型进行了微调。使用此模型时，请确保语音输入的采样率为 16kHz。

该模型的训练得益于 OVHcloud 慷慨提供的 GPU 计算资源。训练脚本可在 https://github.com/jonatasgrosman/wav2vec2-sprint 找到。

✨ 主要特性

微调模型：基于 facebook/wav2vec2-large-xlsr-53 在西班牙语数据上进行微调。
自定义语言模型：添加了自定义语言模型，提升识别效果。
多数据集支持：可在多个数据集上进行评估。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

使用 ASRecognition 库进行语音识别：

from asrecognition import ASREngine

asr = ASREngine("es", model_path="jonatasgrosman/wav2vec2-large-xlsr-53-spanish")

audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = asr.transcribe(audio_paths)

高级用法

编写自己的推理脚本进行语音识别：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "es"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-spanish"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分识别结果示例：

参考文本	预测文本
HABITA EN AGUAS POCO PROFUNDAS Y ROCOSAS.	HABITAN AGUAS POCO PROFUNDAS Y ROCOSAS
OPERA PRINCIPALMENTE VUELOS DE CABOTAJE Y REGIONALES DE CARGA.	OPERA PRINCIPALMENTE VUELO DE CARBOTAJES Y REGIONALES DE CARGAN
PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN.	PARA VISITAR CONTACTAR PRIMERO CON LA DIRECCIÓN
TRES	TRES
REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA, PARA CONTINUAR LUEGO EN ESPAÑA.	REALIZÓ LOS ESTUDIOS PRIMARIOS EN FRANCIA PARA CONTINUAR LUEGO EN ESPAÑA
EN LOS AÑOS QUE SIGUIERON, ESTE TRABAJO ESPARTA PRODUJO DOCENAS DE BUENOS JUGADORES.	EN LOS AÑOS QUE SIGUIERON ESTE TRABAJO ESPARTA PRODUJO DOCENA DE BUENOS JUGADORES
SE ESTÁ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS.	SE ESTÓ TRATANDO DE RECUPERAR SU CULTIVO EN LAS ISLAS CANARIAS
SÍ	SÍ
"FUE ""SACADA"" DE LA SERIE EN EL EPISODIO ""LEAD"", EN QUE ALEXANDRA CABOT REGRESÓ."	FUE SACADA DE LA SERIE EN EL EPISODIO LEED EN QUE ALEXANDRA KAOT REGRESÓ
SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOKA, EN LA PROVINCIA DE BIOKO SUR.	SE UBICAN ESPECÍFICAMENTE EN EL VALLE DE MOCA EN LA PROVINCIA DE PÍOCOSUR

📚 详细文档

评估方法

在 mozilla-foundation/common_voice_6_0 数据集的 test 分割上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset mozilla-foundation/common_voice_6_0 --config es --split test

在 speech-recognition-community-v2/dev_data 数据集上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-spanish --dataset speech-recognition-community-v2/dev_data --config es --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 模型信息

属性	详情
模型类型	XLSR Wav2Vec2 西班牙语模型
训练数据	Common Voice、mozilla-foundation/common_voice_6_0
评估指标	WER（词错误率）、CER（字符错误率）

模型评估结果

Common Voice es 数据集（测试集）
- Test WER: 8.82
- Test CER: 2.58
- Test WER (+LM): 6.27
- Test CER (+LM): 2.06
Robust Speech Event - Dev Data 数据集（验证集）
- Dev WER: 30.19
- Dev CER: 13.56
- Dev WER (+LM): 24.71
- Dev CER (+LM): 12.61

📖 引用信息

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021wav2vec2-large-xlsr-53-spanish,
  title={XLSR Wav2Vec2 Spanish by Jonatas Grosman},
  author={Grosman, Jonatas},
  publisher={Hugging Face},
  journal={Hugging Face Hub},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish}},
  year={2021}
}