wav2vec2-large-xlsr-53-german-with-lm開源模型 - 德語語音高效準確識別得力助手

首頁

Wav2vec2 Large Xlsr 53 German With Lm

由aware-ai開發

這是一個基於XLSR Wav2Vec2架構的德語自動語音識別模型，帶有語言模型支持，在Common Voice德語數據集上表現出色。

語音識別

Transformers

德語開源協議:Apache-2.0 #德語語音識別 #低詞錯誤率 #XLSR微調

下載量 19

發布時間 : 3/2/2022

模型概述

該模型用於德語語音識別任務，結合了聲學模型和語言模型，能夠高效準確地將德語語音轉換為文本。

模型特點

低詞錯誤率

在Common Voice德語測試集上達到5.75%的WER和1.90%的CER

語言模型集成

結合了kenlm語言模型，提高了識別準確性

基於XLSR架構

使用大規模自監督預訓練的XLSR Wav2Vec2模型

模型能力

德語語音識別

語音轉文本

高精度音頻轉錄

使用案例

語音轉錄

德語語音轉寫

將德語語音內容轉換為文本格式

高準確率的轉錄結果，WER僅5.75%

語音助手

德語語音命令識別

用於德語語音助手或控制系統的語音識別組件

🚀 XLSR Wav2Vec2 德語模型

本項目的 XLSR Wav2Vec2 德語模型，可用於自動語音識別任務，在 Common Voice 德語測試數據上有出色表現。

🚀 快速開始

本模型可在 Common Voice 的德語測試數據上進行評估，具體評估方式見下方代碼示例。

✨ 主要特性

數據集：使用 Common Voice 數據集進行訓練。
評估指標：使用字錯率（WER）和字符錯誤率（CER）進行評估。
適用領域：適用於音頻、自動語音識別等領域。

📦 安裝指南

暫未提供相關安裝步驟。

💻 使用示例

基礎用法

以下代碼展示瞭如何在 Common Voice 的德語測試數據上評估該模型：

import torchaudio.functional as F
import torch
from transformers import AutoModelForCTC, AutoProcessor
import re
from datasets import load_dataset, load_metric

CHARS_TO_IGNORE = [",", "?", "¿", ".", "!", "¡", ";", "；", ":", '""', "%", '"', "�", "ʿ", "·", "჻", "~", "՞",
                   "؟", "،", "।", "॥", "«", "»", "„", "“", "”", "「", "」", "‘", "’", "《", "》", "(", ")", "[", "]",
                   "{", "}", "=", "`", "_", "+", "<", ">", "…", "–", "°", "´", "ʾ", "‹", "›", "©", "®", "—", "→", "。",
                   "、", "﹂", "﹁", "‧", "～", "﹏", "，", "｛", "｝", "（", "）", "［", "］", "【", "】", "‥", "〽",
                   "『', '』', '〝', '〟', '⟨', '⟩', '〜', '：', '！', '？', '♪', '؛', '/', '\\', 'º', '−', '^', 'ʻ', 'ˆ"]

chars_to_ignore_regex = f"[{re.escape(''.join(CHARS_TO_IGNORE))}]"

counter = 0
wer_counter = 0
cer_counter = 0

def main():
    model = AutoModelForCTC.from_pretrained("flozi00/wav2vec2-large-xlsr-53-german-with-lm")
    processor = AutoProcessor.from_pretrained("flozi00/wav2vec2-large-xlsr-53-german-with-lm")

    wer = load_metric("wer")
    cer = load_metric("cer")

    ds = load_dataset("common_voice", "de", split="test")
    #ds = ds.select(range(100))

    def calculate_metrics(batch):
        global counter, wer_counter, cer_counter
        resampled_audio = F.resample(torch.tensor(batch["audio"]["array"]), 48_000, 16_000).numpy()

        input_values = processor(resampled_audio, return_tensors="pt", sampling_rate=16_000).input_values

        with torch.no_grad():
            logits = model(input_values).logits.numpy()[0]


        decoded = processor.decode(logits)
        pred = decoded.text

        ref = re.sub(chars_to_ignore_regex, "", batch["sentence"]).upper()

        wer_result = wer.compute(predictions=[pred], references=[ref])
        cer_result = cer.compute(predictions=[pred], references=[ref])

        counter += 1
        wer_counter += wer_result
        cer_counter += cer_result

        print(f"WER: {(wer_counter/counter)*100} | CER: {(cer_counter/counter)*100}")

        return batch


    ds.map(calculate_metrics, remove_columns=ds.column_names)
    
main()