wav2vec2-large-xlsr-53-german开源模型 - 免费部署实现德语语音自动识别

首页

Wav2vec2 Large Xlsr 53 German

由 facebook 开发

基于Facebook的Wav2Vec2架构的大规模德语自动语音识别(ASR)模型，在Common Voice德语数据集上微调

语音识别德语开源协议:Apache-2.0 #德语语音识别 #高精度WER18.5%#XLSR多语言迁移

下载量 1,767

发布时间 : 3/2/2022

模型简介

该模型是基于Wav2Vec2架构的预训练模型，专门针对德语语音识别任务进行了微调，能够将德语语音转换为文本。

模型特点

大规模预训练

基于XLSR-53多语言模型进行预训练，具有强大的语音特征提取能力

德语优化

专门针对德语语音特点进行了微调，适应德语的发音和语法特征

高准确率

在Common Voice德语测试集上达到18.5%的词错误率(WER)

模型能力

德语语音识别

语音转文本

音频内容转录

使用案例

语音转录

德语语音转文字

将德语语音内容自动转换为文本格式

词错误率18.5%（在Common Voice测试集上）

辅助技术

语音控制应用

为德语用户提供语音控制界面

🚀 德语语音识别模型评估项目

本项目主要针对德语语音识别进行评估，使用了facebook/wav2vec2-large-xlsr-53-german模型在Common Voice德语测试集上开展评估工作，为语音识别相关研究和应用提供了参考。

🚀 快速开始

以下步骤和代码示例展示了如何在Common Voice德语测试集上对模型进行评估。

安装依赖

确保你已经安装了以下Python库：

pip install torchaudio datasets transformers torch

运行评估代码

import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)
import torch
import re
import sys

model_name = "facebook/wav2vec2-large-xlsr-53-german"
device = "cuda"

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"]'  # noqa: W605

model = Wav2Vec2ForCTC.from_pretrained(model_name).to(device)
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "de", split="test", data_dir="./cv-corpus-6.1-2020-12-11")

resampler = torchaudio.transforms.Resample(orig_freq=48_000, new_freq=16_000)

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = re.sub(chars_to_ignore_regex, '', batch["sentence"]).lower().replace("’", "'")
    return batch
    
ds = ds.map(map_to_array)

def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    return batch
    
result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))

wer = load_metric("wer")

print(wer.compute(predictions=result["predicted"], references=result["target"]))

评估结果

结果：18.5 %

✨ 主要特性

语音处理：使用torchaudio进行语音数据的加载和重采样，将语音数据的采样率统一调整为16000Hz。
模型使用：采用facebook/wav2vec2-large-xlsr-53-german模型进行德语语音识别。
指标评估：使用字错率（WER）作为评估指标，衡量模型的语音识别性能。

📦 安装指南

安装所需的Python库：

pip install torchaudio datasets transformers torch

💻 使用示例

基础用法

上述代码展示了如何在Common Voice德语测试集上对模型进行评估。代码主要包括以下步骤：

加载模型和处理器。
加载测试数据集。
对语音数据进行预处理，包括重采样和文本清理。
对模型进行推理，得到预测结果。
计算字错率（WER）。

高级用法

你可以根据自己的需求修改代码，例如：

更换不同的模型进行评估。
使用不同的数据集进行测试。
调整评估指标，如使用句错率（SER）等。

📄 许可证

本项目使用Apache 2.0许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库