wav2vec2-large-xlsr-53-german開源模型 - 免費部署實現德語語音自動識別

首頁

Wav2vec2 Large Xlsr 53 German

由facebook開發

基於Facebook的Wav2Vec2架構的大規模德語自動語音識別(ASR)模型，在Common Voice德語數據集上微調

語音識別德語開源協議:Apache-2.0 #德語語音識別 #高精度WER18.5%#XLSR多語言遷移

下載量 1,767

發布時間 : 3/2/2022

模型概述

該模型是基於Wav2Vec2架構的預訓練模型，專門針對德語語音識別任務進行了微調，能夠將德語語音轉換為文本。

模型特點

大規模預訓練

基於XLSR-53多語言模型進行預訓練，具有強大的語音特徵提取能力

德語優化

專門針對德語語音特點進行了微調，適應德語的發音和語法特徵

高準確率

在Common Voice德語測試集上達到18.5%的詞錯誤率(WER)

模型能力

德語語音識別

語音轉文本

音頻內容轉錄

使用案例

語音轉錄

德語語音轉文字

將德語語音內容自動轉換為文本格式

詞錯誤率18.5%（在Common Voice測試集上）

輔助技術

語音控制應用

為德語用戶提供語音控制界面

🚀 德語語音識別模型評估項目

本項目主要針對德語語音識別進行評估，使用了facebook/wav2vec2-large-xlsr-53-german模型在Common Voice德語測試集上開展評估工作，為語音識別相關研究和應用提供了參考。

🚀 快速開始

以下步驟和代碼示例展示瞭如何在Common Voice德語測試集上對模型進行評估。

安裝依賴

確保你已經安裝了以下Python庫：

pip install torchaudio datasets transformers torch

運行評估代碼

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

model_name = "facebook/wav2vec2-large-xlsr-53-german"
device = "cuda"

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "de", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch
    
ds = ds.map(map_to_array)

def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch
    
result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))

wer = load_metric("wer")

print(wer.compute(predictions=result["predicted"], references=result["target"]))

評估結果

結果：18.5 %

✨ 主要特性

語音處理：使用torchaudio進行語音數據的加載和重採樣，將語音數據的採樣率統一調整為16000Hz。
模型使用：採用facebook/wav2vec2-large-xlsr-53-german模型進行德語語音識別。
指標評估：使用字錯率（WER）作為評估指標，衡量模型的語音識別性能。

📦 安裝指南

安裝所需的Python庫：

pip install torchaudio datasets transformers torch

💻 使用示例

基礎用法

上述代碼展示瞭如何在Common Voice德語測試集上對模型進行評估。代碼主要包括以下步驟：

加載模型和處理器。
加載測試數據集。
對語音數據進行預處理，包括重採樣和文本清理。
對模型進行推理，得到預測結果。
計算字錯率（WER）。

高級用法

你可以根據自己的需求修改代碼，例如：

更換不同的模型進行評估。
使用不同的數據集進行測試。
調整評估指標，如使用句錯率（SER）等。

📄 許可證

本項目使用Apache 2.0許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫