wav2vec2-large-xlsr-german开源语音识别模型

首页

Wav2vec2 Large Xlsr German

由 maxidl 开发

基于Facebook的wav2vec2-large-xlsr-53模型，使用Common Voice德语数据集微调的自动语音识别(ASR)模型

语音识别德语开源协议:Apache-2.0 #德语语音识别 #高精度WER12.77 #XLSR微调

下载量 253

发布时间 : 3/2/2022

模型简介

这是一个针对德语优化的自动语音识别模型，能够将德语语音转换为文本，适用于需要语音转文字的应用场景。

模型特点

高精度德语识别

在Common Voice德语测试集上达到12.77%的WER(词错误率)

基于XLSR架构

使用facebook/wav2vec2-large-xlsr-53作为基础模型，具有强大的语音特征提取能力

无需语言模型

可直接使用，不需要额外的语言模型支持

模型能力

德语语音识别

16kHz音频处理

批量语音转文本

使用案例

语音转写

德语会议记录

将德语会议录音自动转换为文字记录

准确率约87.23%(基于12.77% WER)

语音助手

为德语语音助手提供语音识别能力

教育

语言学习应用

帮助学习者练习德语发音和听力

🚀 Wav2Vec2-Large-XLSR-53-德语

该模型在德语上对 facebook/wav2vec2-large-xlsr-53 进行了微调，使用的是 Common Voice 数据集。使用此模型时，请确保语音输入的采样率为 16kHz。

🚀 快速开始

本模型可直接使用（无需语言模型），具体操作如下：

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "de", split="test[:8]") # 为演示目的使用 8 个样本的批次

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german") 

resampler = torchaudio.transforms.Resample(48_000, 16_000)

"""
对数据集进行预处理：
- 加载音频文件
- 重采样至 16kHz
- 转换为数组
- 使用处理器准备输入张量
"""
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

# 前向传播
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("预测结果:", processor.batch_decode(predicted_ids))
print("参考结果:", test_dataset["sentence"])
"""
示例结果：

预测结果: [
    'zieh durch bittet draußen die schuhe aus',
    'es kommt zugvorgebauten fo',
    'ihre vorterstrecken erschienen it modemagazinen wie der voge karpes basar mariclair',
    'fürliepert eine auch für manachen ungewöhnlich lange drittelliste',
    'er wurde zu ehren des reichskanzlers otto von bismarck errichtet',
    'was solls ich bin bereit',
    'das internet besteht aus vielen computern die miteinander verbunden sind',
    'der uranus ist der siebinteplanet in unserem sonnensystem s'
]

参考结果: [
    'Zieht euch bitte draußen die Schuhe aus.',
    'Es kommt zum Showdown in Gstaad.',
    'Ihre Fotostrecken erschienen in Modemagazinen wie der Vogue, Harper’s Bazaar und Marie Claire.',
    'Felipe hat eine auch für Monarchen ungewöhnlich lange Titelliste.',
    'Er wurde zu Ehren des Reichskanzlers Otto von Bismarck errichtet.',
    'Was solls, ich bin bereit.',
    'Das Internet besteht aus vielen Computern, die miteinander verbunden sind.',
    'Der Uranus ist der siebente Planet in unserem Sonnensystem.'
]
"""

💻 使用示例

基础用法

import torch
import torchaudio
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

test_dataset = load_dataset("common_voice", "de", split="test[:8]") # 为演示目的使用 8 个样本的批次

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german") 

resampler = torchaudio.transforms.Resample(48_000, 16_000)

"""
对数据集进行预处理：
- 加载音频文件
- 重采样至 16kHz
- 转换为数组
- 使用处理器准备输入张量
"""
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

# 前向传播
with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)

print("预测结果:", processor.batch_decode(predicted_ids))
print("参考结果:", test_dataset["sentence"])

高级用法

import re
import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

"""
在完整测试集上进行评估：
- 大约需要 20 分钟（RTX 3090）。
- 需要约 170GB 内存来计算 WER。下面，我们使用分块实现的 WER 来避免大量内存消耗。
"""
test_dataset = load_dataset("common_voice", "de", split="test") # 使用 "test[:1%]" 进行 1% 的样本测试
wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model.to("cuda")

chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# 预处理数据集。
# 我们需要将音频文件读取为数组
def speech_file_to_array_fn(batch):
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# 预处理数据集。
# 我们需要将音频文件读取为数组
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8) # batch_size=8 -> 需要约 14.5GB GPU 内存

# 非分块版本：
# print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
# WER: 12.900291 

# 分块版本，参见 https://discuss.huggingface.co/t/spanish-asr-fine-tuning-wav2vec2/4586/5:
import jiwer

def chunked_wer(targets, predictions, chunk_size=None):
    if chunk_size is None: return jiwer.wer(targets, predictions)
    start = 0
    end = chunk_size
    H, S, D, I = 0, 0, 0, 0
    while start < len(targets):
        chunk_metrics = jiwer.compute_measures(targets[start:end], predictions[start:end])
        H = H + chunk_metrics["hits"]
        S = S + chunk_metrics["substitutions"]
        D = D + chunk_metrics["deletions"]
        I = I + chunk_metrics["insertions"]
        start += chunk_size
        end += chunk_size
    return float(S + D + I) / float(H + S + D)

print("总计 (chunk_size=1000), WER: {:2f}".format(100 * chunked_wer(result["pred_strings"], result["sentence"], chunk_size=1000)))
# 总计 (chunk=1000), WER: 12.768981

🔧 评估

该模型可以在 Common Voice 的德语测试数据上进行如下评估：

import re
import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

"""
在完整测试集上进行评估：
- 大约需要 20 分钟（RTX 3090）。
- 需要约 170GB 内存来计算 WER。下面，我们使用分块实现的 WER 来避免大量内存消耗。
"""
test_dataset = load_dataset("common_voice", "de", split="test") # 使用 "test[:1%]" 进行 1% 的样本测试
wer = load_metric("wer")

processor = Wav2Vec2Processor.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model = Wav2Vec2ForCTC.from_pretrained("maxidl/wav2vec2-large-xlsr-german")
model.to("cuda")

chars_to_ignore_regex = '[\\,\\?\\.\\!\\-\\;\\:\\"\\“]'
resampler = torchaudio.transforms.Resample(48_000, 16_000)

# 预处理数据集。
# 我们需要将音频文件读取为数组
def speech_file_to_array_fn(batch):
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)

# 预处理数据集。
# 我们需要将音频文件读取为数组
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)
    return batch

result = test_dataset.map(evaluate, batched=True, batch_size=8) # batch_size=8 -> 需要约 14.5GB GPU 内存

# 非分块版本：
# print("WER: {:2f}".format(100 * wer.compute(predictions=result["pred_strings"], references=result["sentence"])))
# WER: 12.900291 

# 分块版本，参见 https://discuss.huggingface.co/t/spanish-asr-fine-tuning-wav2vec2/4586/5:
import jiwer

def chunked_wer(targets, predictions, chunk_size=None):
    if chunk_size is None: return jiwer.wer(targets, predictions)
    start = 0
    end = chunk_size
    H, S, D, I = 0, 0, 0, 0
    while start < len(targets):
        chunk_metrics = jiwer.compute_measures(targets[start:end], predictions[start:end])
        H = H + chunk_metrics["hits"]
        S = S + chunk_metrics["substitutions"]
        D = D + chunk_metrics["deletions"]
        I = I + chunk_metrics["insertions"]
        start += chunk_size
        end += chunk_size
    return float(S + D + I) / float(H + S + D)

print("总计 (chunk_size=1000), WER: {:2f}".format(100 * chunked_wer(result["pred_strings"], result["sentence"], chunk_size=1000)))
# 总计 (chunk=1000), WER: 12.768981

测试结果：WER: 12.77 %

🔧 训练

训练使用了 Common Voice 德语的 train 和 validation 数据集。训练脚本可在此处找到。该模型训练了 50k 步，在单个 A100 上大约需要 30 小时。

训练此模型使用的参数如下：

python run_finetuning.py \
--model_name_or_path="facebook/wav2vec2-large-xlsr-53" \
--dataset_config_name="de" \
--output_dir=./wav2vec2-large-xlsr-german \
--preprocessing_num_workers="16" \
--overwrite_output_dir \
--num_train_epochs="20" \
--per_device_train_batch_size="64" \
--per_device_eval_batch_size="32" \
--learning_rate="1e-4" \
--warmup_steps="500" \
--evaluation_strategy="steps" \
--save_steps="5000" \
--eval_steps="5000" \
--logging_steps="1000" \
--save_total_limit="3" \
--freeze_feature_extractor \
--activation_dropout="0.055" \
--attention_dropout="0.094" \
--feat_proj_dropout="0.04" \
--layerdrop="0.04" \
--mask_time_prob="0.08" \
--gradient_checkpointing="1" \
--fp16 \
--do_train \
--do_eval \
--dataloader_num_workers="16" \
--group_by_length

📄 许可证

本模型使用的许可证为 apache-2.0。

📋 模型信息

属性	详情
模型类型	基于 XLSR Wav2Vec2 架构微调的语音识别模型
训练数据	Common Voice 德语数据集的训练集和验证集
评估指标	词错误率（WER）
测试 WER	12.77%