wav2vec2-large-chinese-zh-cn开源语音识别模型 - 支持16kHz中文语音精准识别

首页

Wav2vec2 Large Chinese Zh Cn

由 wbbbbb 开发

基于XLSR-53大模型微调的中文语音识别模型，支持16kHz采样率的语音输入

语音识别

Transformers

中文开源协议:Apache-2.0 #中文语音识别 #XLSR微调 #多源数据训练

下载量 585

发布时间 : 7/18/2022

模型简介

该模型是针对中文语音识别任务微调的XLSR-53大模型，在Common Voice等中文语音数据集上训练，可直接用于语音转文字任务

模型特点

中文语音识别优化

专门针对中文语音特点进行微调，在中文语音识别任务上表现优于通用模型

多数据集训练

使用Common Voice 6.1、CSS10和ST-CMDS等多个中文语音数据集进行训练

无需语言模型

可直接使用，无需额外语言模型支持

模型能力

中文语音识别

语音转文字

16kHz音频处理

使用案例

语音转写

会议记录自动转写

将中文会议录音自动转换为文字记录

语音笔记转换

将个人语音备忘录转换为可搜索的文本

无障碍应用

实时字幕生成

为听力障碍用户提供实时语音转文字服务

🚀 用于中文语音识别的微调XLSR - 53大模型

本项目微调了facebook/wav2vec2-large-xlsr-53模型，使用了Common Voice 6.1、CSS10和ST - CMDS的训练集和验证集进行中文微调。使用该模型时，请确保语音输入的采样率为16kHz。

此模型在RTX3090上进行了50小时的微调训练。训练脚本可在以下链接找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速开始

本模型是基于facebook/wav2vec2-large-xlsr-53在中文数据集上微调得到的语音识别模型。它可以对中文语音进行有效的识别，在多个中文数据集上进行了训练和验证，使用时需注意语音输入采样率为16kHz。

✨ 主要特性

基于XLSR - 53大模型进行微调，适用于中文语音识别。
可直接使用，无需语言模型。
提供了训练脚本和评估脚本，方便用户使用和评估。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库（如huggingsound、transformers、datasets等）的官方安装指南进行安装。

💻 使用示例

基础用法

使用HuggingSound库可以直接使用该模型进行语音识别：

from huggingsound import SpeechRecognitionModel
model = SpeechRecognitionModel("wbbbbb/wav2vec2-large-chinese-zh-cn")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]
transcriptions = model.transcribe(audio_paths)

📚 详细文档

评估

该模型可以在Common Voice的中文（zh - CN）测试数据上进行评估，以下是评估代码：

import torch
import re
import librosa
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import warnings
import os

os.environ["KMP_AFFINITY"] = ""


LANG_ID = "zh-CN"
MODEL_ID = "zh-CN-output-aishell"
DEVICE = "cuda"

test_dataset = load_dataset("common_voice", LANG_ID, split="test")

wer = load_metric("wer")
cer = load_metric("cer")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)
model.to(DEVICE)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = (
        re.sub("([^\u4e00-\u9fa5\u0030-\u0039])", "", batch["sentence"]).lower() + " "
    )
    return batch


test_dataset = test_dataset.map(
    speech_file_to_array_fn,
    num_proc=15,
    remove_columns=['client_id', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment'],
)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def evaluate(batch):
    inputs = processor(
        batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True
    )

    with torch.no_grad():
        logits = model(
            inputs.input_values.to(DEVICE),
            attention_mask=inputs.attention_mask.to(DEVICE),
        ).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch


result = test_dataset.map(evaluate, batched=True, batch_size=8)

predictions = [x.lower() for x in result["pred_strings"]]
references = [x.lower() for x in result["sentence"]]

print(
    f"WER: {wer.compute(predictions=predictions, references=references, chunk_size=1000) * 100}"
)
print(f"CER: {cer.compute(predictions=predictions, references=references) * 100}")

测试结果

以下表格展示了该模型以及其他模型的词错误率（WER）和字符错误率（CER）。评估脚本于2022 - 07 - 18运行，表格中的结果可能与其他评估脚本的结果不同，这可能是由于使用的评估脚本的特殊性导致的。

模型	WER	CER
wbbbbb/wav2vec2-large-chinese-zh-cn	70.47%	12.30%
jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn	82.37%	19.03%
ydshieh/wav2vec2-large-xlsr-53-chinese-zh-cn-gpt	84.01%	20.95%

📄 许可证

本模型使用的许可证为apache - 2.0。

📚 引用

如果您想引用此模型，可以使用以下BibTeX格式：

@misc{grosman2021xlsr53-large-chinese,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {C}hinese},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/wbbbbb/wav2vec2-large-chinese-zh-cn}},
  year={2021}
}