wav2vec2-large-xlsr-53-french_punctuation开源模型 - 支持标点预测的法语语音识别

首页

Wav2vec2 Large Xlsr 53 French Punctuation

由 Ilyes 开发

基于wav2vec2-large-xlsr-53架构的法语自动语音识别模型，支持标点符号预测

语音识别法语开源协议:Apache-2.0 #法语语音识别 #标点自动生成 #XLSR微调

下载量 23

发布时间 : 3/2/2022

模型简介

该模型是专为法语语音识别设计的wav2vec2-large-xlsr-53微调版本，能够处理含标点的语音转录任务。

模型特点

标点符号预测

能够自动预测并添加标点符号，提高转录文本的可读性

高准确率

在Common Voice法语测试集上达到WER 19.47%和CER 6.66%的优异表现

XLSR微调

基于跨语言语音表示(XLSR)预训练模型进行微调，具有强大的语音特征提取能力

模型能力

法语语音识别

自动标点预测

语音转文本

使用案例

语音转录

会议记录

自动转录法语会议录音并添加标点符号

提高转录效率和文本可读性

媒体字幕生成

为法语视频内容生成带标点的字幕

节省人工字幕制作时间

语音助手

法语语音输入

支持法语语音命令识别和处理

提升语音交互体验

🚀 语音识别模型：wav2vec2-large-xlsr-53-French_punctuation

本项目是由Ilyes Rebai开发的语音识别模型wav2vec2-large-xlsr-53-French_punctuation，基于Wav2Vec2架构，在Common Voice法语数据集上进行微调，可用于法语语音识别任务，同时支持标点预测。

🚀 快速开始

本部分展示了如何在Common Voice法语测试集上对模型进行评估。

import re
import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)

model_name = "Ilyes/wav2vec2-large-xlsr-53-french_punctuation"

model = Wav2Vec2ForCTC.from_pretrained(model_name).to('cuda')
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "fr", split="test")

chars_to_ignore_regex = '[\;\:\"\“\%\‘\”\�\‘\’\’\’\‘\…\·\ǃ\«\‹\»\›“\”\\ʿ\ʾ\„\∞\\|\;\:\*\—\–\─\―\_\/\:\ː\;\=\«\»\→]'
def normalize_text(text):
    text = text.lower().strip()
    text = re.sub('œ', 'oe', text)
    text = re.sub('æ', 'ae', text)
    text = re.sub("’|´|′|ʼ|‘|ʻ|`", "'", text)
    text = re.sub("'+ ", " ", text)
    text = re.sub(" '+", " ", text)
    text = re.sub("'$", " ", text)
    text = re.sub("' ", " ", text)
    text = re.sub("−|‐", "-", text)
    text = re.sub(" -", "", text)
    text = re.sub("- ", "", text)
    text = re.sub(chars_to_ignore_regex, '', text)
    return text

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = normalize_text(batch["sentence"])
    return batch

ds = ds.map(map_to_array)

resampler = torchaudio.transforms.Resample(48_000, 16_000)
def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    # remove duplicates
    batch["target"] = re.sub('\.+', '.', batch["target"])
    batch["target"] = re.sub('\?+', '?', batch["target"])
    batch["target"] = re.sub('!+', '!', batch["target"])
    batch["target"] = re.sub(',+', ',', batch["target"])
    return batch

result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))

💻 使用示例

基础用法

上述代码展示了如何加载模型、处理数据并进行预测，同时计算词错误率（WER）。

高级用法

可以根据实际需求修改代码，例如调整批量大小、更换数据集等。

📚 详细文档

模型信息

属性	详情
模型类型	wav2vec2-large-xlsr-53-French_punctuation
训练数据	Common Voice法语数据集
许可证	Apache-2.0

评估结果

模型评估指标

该模型在Common Voice法语测试集上的评估结果如下：

文本+标点预测：WER = 21.47%，CER = 7.21%
无标点文本：WER = 19.71%，CER = 6.91%

部分预测示例

参考文本	预测文本
il vécut à new york et y enseigna une grande partie de sa vie.	il a vécu à new york et y enseigna une grande partie de sa vie.
au classement par nations, l'allemagne est la tenante du titre.	au classement der nation l'allemagne est la tenante du titre.
voici un petit calcul pour fixer les idées.	voici un petit calcul pour fixer les idées.
oh! tu dois être beau avec	oh! tu dois être beau avec.
babochet vous le voulez?	baboche, vous le voulez?
la commission est, par conséquent, défavorable à cet amendement.	la commission est, par conséquent, défavorable à cet amendement.