wav2vec2-large-xlsr-53-german-with-lm开源模型 - 德语语音高效准确识别得力助手

首页

Wav2vec2 Large Xlsr 53 German With Lm

由 aware-ai 开发

这是一个基于XLSR Wav2Vec2架构的德语自动语音识别模型，带有语言模型支持，在Common Voice德语数据集上表现出色。

语音识别

Transformers

德语开源协议:Apache-2.0 #德语语音识别 #低词错误率 #XLSR微调

下载量 19

发布时间 : 3/2/2022

模型简介

该模型用于德语语音识别任务，结合了声学模型和语言模型，能够高效准确地将德语语音转换为文本。

模型特点

低词错误率

在Common Voice德语测试集上达到5.75%的WER和1.90%的CER

语言模型集成

结合了kenlm语言模型，提高了识别准确性

基于XLSR架构

使用大规模自监督预训练的XLSR Wav2Vec2模型

模型能力

德语语音识别

语音转文本

高精度音频转录

使用案例

语音转录

德语语音转写

将德语语音内容转换为文本格式

高准确率的转录结果，WER仅5.75%

语音助手

德语语音命令识别

用于德语语音助手或控制系统的语音识别组件

🚀 XLSR Wav2Vec2 德语模型

本项目的 XLSR Wav2Vec2 德语模型，可用于自动语音识别任务，在 Common Voice 德语测试数据上有出色表现。

🚀 快速开始

本模型可在 Common Voice 的德语测试数据上进行评估，具体评估方式见下方代码示例。

✨ 主要特性

数据集：使用 Common Voice 数据集进行训练。
评估指标：使用字错率（WER）和字符错误率（CER）进行评估。
适用领域：适用于音频、自动语音识别等领域。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

以下代码展示了如何在 Common Voice 的德语测试数据上评估该模型：

import torchaudio.functional as F
import torch
from transformers import AutoModelForCTC, AutoProcessor
import re
from datasets import load_dataset, load_metric

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『', '』', '〝', '〟', '⟨', '⟩', '〜', '：', '！', '？', '♪', '؛', '/', '\\', 'º', '−', '^', 'ʻ', 'ˆ"]

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

counter = 0
wer_counter = 0
cer_counter = 0

def main():
    model = AutoModelForCTC.from_pretrained("flozi00/wav2vec2-large-xlsr-53-german-with-lm")
    processor = AutoProcessor.from_pretrained("flozi00/wav2vec2-large-xlsr-53-german-with-lm")

    wer = load_metric("wer")
    cer = load_metric("cer")

    ds = load_dataset("common_voice", "de", split="test")
    #ds = ds.select(range(100))

    def calculate_metrics(batch):
        global counter, wer_counter, cer_counter
        resampled_audio = F.resample(torch.tensor(batch["audio"]["array"]), 48_000, 16_000).numpy()

        input_values = processor(resampled_audio, return_tensors="pt", sampling_rate=16_000).input_values

        with torch.no_grad():
            logits = model(input_values).logits.numpy()[0]


        decoded = processor.decode(logits)
        pred = decoded.text

        ref = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()

        wer_result = wer.compute(predictions=[pred], references=[ref])
        cer_result = cer.compute(predictions=[pred], references=[ref])

        counter += 1
        wer_counter += wer_result
        cer_counter += cer_result

        print(f"WER: {(wer_counter/counter)*100} | CER: {(cer_counter/counter)*100}")

        return batch


    ds.map(calculate_metrics, remove_columns=ds.column_names)
    
main()