wav2vec2-large-xlsr-53-german开源语音识别模型

首页

Wav2vec2 Large Xlsr 53 German

由 jonatasgrosman 开发

这是一个针对德语语音识别任务微调的XLSR-53大模型，基于Facebook的wav2vec2-large-xlsr-53模型，在Common Voice 6.1德语数据集上进行了微调。

语音识别德语开源协议:Apache-2.0 #德语语音识别 #低词错误率 #XLSR-53微调

下载量 8,266

发布时间 : 3/2/2022

模型简介

该模型专门用于德语自动语音识别(ASR)，能够将德语语音转换为文本，支持16kHz采样率的音频输入。

模型特点

高性能德语识别

在Common Voice德语测试集上达到12.06%的词错误率(WER)和2.92%的字符错误率(CER)

支持语言模型增强

结合语言模型后，WER可降至8.74%，CER降至2.28%，显著提升识别准确率

基于XLSR-53架构

利用跨语言语音表示学习的大规模预训练模型，具有强大的语音特征提取能力

易于集成

提供HuggingSound库和自定义脚本两种使用方式，方便快速集成到应用中

模型能力

德语语音识别

音频转文本

支持16kHz采样率音频处理

使用案例

语音转录

德语语音转文字

将德语语音内容自动转换为文本格式

在标准测试集上达到12.06%的词错误率

语音助手

德语语音指令识别

用于德语语音助手或控制系统的语音指令识别

🚀 用于德语语音识别的微调XLSR - 53大模型

本模型是在德语数据集上对facebook/wav2vec2-large-xlsr-53进行微调得到的，使用了Common Voice 6.1的训练集和验证集。使用该模型时，请确保语音输入的采样率为16kHz。

此模型的微调得益于OVHcloud慷慨提供的GPU计算资源。训练脚本可在以下链接找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速开始

本模型用于德语语音识别，基于微调的XLSR - 53大模型，能有效处理德语语音数据。使用时需注意语音输入采样率为16kHz。

✨ 主要特性

基于XLSR - 53大模型微调，适配德语语音识别。
可直接使用，也可结合语言模型提升性能。
训练得益于OVHcloud的GPU资源支持。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库的安装说明，如HuggingSound、torch、librosa、datasets、transformers等。

💻 使用示例

基础用法

使用HuggingSound库：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-german")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "de"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-german"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

以下是部分预测结果示例：

参考内容	预测内容
ZIEHT EUCH BITTE DRAUSSEN DIE SCHUHE AUS.	ZIEHT EUCH BITTE DRAUSSEN DIE SCHUHE AUS
ES KOMMT ZUM SHOWDOWN IN GSTAAD.	ES KOMMT ZUG STUNDEDAUTENESTERKT
IHRE FOTOSTRECKEN ERSCHIENEN IN MODEMAGAZINEN WIE DER VOGUE, HARPER’S BAZAAR UND MARIE CLAIRE.	IHRE FOTELSTRECKEN ERSCHIENEN MIT MODEMAGAZINEN WIE DER VALG AT DAS BASIN MA RIQUAIR
FELIPE HAT EINE AUCH FÜR MONARCHEN UNGEWÖHNLICH LANGE TITELLISTE.	FELIPPE HAT EINE AUCH FÜR MONACHEN UNGEWÖHNLICH LANGE TITELLISTE
ER WURDE ZU EHREN DES REICHSKANZLERS OTTO VON BISMARCK ERRICHTET.	ER WURDE ZU EHREN DES REICHSKANZLERS OTTO VON BISMARCK ERRICHTET M
WAS SOLLS, ICH BIN BEREIT.	WAS SOLL'S ICH BIN BEREIT
DAS INTERNET BESTEHT AUS VIELEN COMPUTERN, DIE MITEINANDER VERBUNDEN SIND.	DAS INTERNET BESTEHT AUS VIELEN COMPUTERN DIE MITEINANDER VERBUNDEN SIND
DER URANUS IST DER SIEBENTE PLANET IN UNSEREM SONNENSYSTEM.	DER URANUS IST DER SIEBENTE PLANET IN UNSEREM SONNENSYSTEM
DIE WAGEN ERHIELTEN EIN EINHEITLICHES ERSCHEINUNGSBILD IN WEISS MIT ROTEM FENSTERBAND.	DIE WAGEN ERHIELTEN EIN EINHEITLICHES ERSCHEINUNGSBILD IN WEISS MIT ROTEM FENSTERBAND
SIE WAR DIE COUSINE VON CARL MARIA VON WEBER.	SIE WAR DIE COUSINE VON KARL - MARIA VON WEBER

📚 详细文档

评估

在mozilla - foundation/common_voice_6_0的test分割集上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-german --dataset mozilla-foundation/common_voice_6_0 --config de --split test

在speech - recognition-community-v2/dev_data上进行评估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-german --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0

引用

如果您想引用此模型，可以使用以下格式：

@misc{grosman2021xlsr53-large-german,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {G}erman},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-german}},
  year={2021}
}

📄 许可证

本项目采用Apache 2.0许可证。

📋 模型信息

属性	详情
模型类型	用于德语语音识别的微调XLSR - 53大模型
训练数据	Common Voice 6.1的德语训练集和验证集
评估指标	词错误率（WER）、字符错误率（CER）
标签	音频、自动语音识别、德语、HF自动语音识别排行榜、Mozilla基金会Common Voice 6.0、鲁棒语音事件、语音、XLSR微调周