wav2vec2-large-xlsr-53-french_punctuation開源模型 - 支持標點預測的法語語音識別

首頁

Wav2vec2 Large Xlsr 53 French Punctuation

由Ilyes開發

基於wav2vec2-large-xlsr-53架構的法語自動語音識別模型，支持標點符號預測

語音識別法語開源協議:Apache-2.0 #法語語音識別 #標點自動生成 #XLSR微調

下載量 23

發布時間 : 3/2/2022

模型概述

該模型是專為法語語音識別設計的wav2vec2-large-xlsr-53微調版本，能夠處理含標點的語音轉錄任務。

模型特點

標點符號預測

能夠自動預測並添加標點符號，提高轉錄文本的可讀性

高準確率

在Common Voice法語測試集上達到WER 19.47%和CER 6.66%的優異表現

XLSR微調

基於跨語言語音表示(XLSR)預訓練模型進行微調，具有強大的語音特徵提取能力

模型能力

法語語音識別

自動標點預測

語音轉文本

使用案例

語音轉錄

會議記錄

自動轉錄法語會議錄音並添加標點符號

提高轉錄效率和文本可讀性

媒體字幕生成

為法語視頻內容生成帶標點的字幕

節省人工字幕製作時間

語音助手

法語語音輸入

支持法語語音命令識別和處理

提升語音交互體驗

🚀 語音識別模型：wav2vec2-large-xlsr-53-French_punctuation

本項目是由Ilyes Rebai開發的語音識別模型wav2vec2-large-xlsr-53-French_punctuation，基於Wav2Vec2架構，在Common Voice法語數據集上進行微調，可用於法語語音識別任務，同時支持標點預測。

🚀 快速開始

本部分展示瞭如何在Common Voice法語測試集上對模型進行評估。

import re
import torch
import torchaudio
from datasets import load_dataset, load_metric
from transformers import (
    Wav2Vec2ForCTC,
    Wav2Vec2Processor,
)

model_name = "Ilyes/wav2vec2-large-xlsr-53-french_punctuation"

model = Wav2Vec2ForCTC.from_pretrained(model_name).to('cuda')
processor = Wav2Vec2Processor.from_pretrained(model_name)

ds = load_dataset("common_voice", "fr", split="test")

chars_to_ignore_regex = '[\;\:\"\“\%\‘\”\�\‘\’\’\’\‘\…\·\ǃ\«\‹\»\›“\”\\ʿ\ʾ\„\∞\\|\;\:\*\—\–\─\―\_\/\:\ː\;\=\«\»\→]'
def normalize_text(text):
    text = text.lower().strip()
    text = re.sub('œ', 'oe', text)
    text = re.sub('æ', 'ae', text)
    text = re.sub("’|´|′|ʼ|‘|ʻ|`", "'", text)
    text = re.sub("'+ ", " ", text)
    text = re.sub(" '+", " ", text)
    text = re.sub("'$", " ", text)
    text = re.sub("' ", " ", text)
    text = re.sub("−|‐", "-", text)
    text = re.sub(" -", "", text)
    text = re.sub("- ", "", text)
    text = re.sub(chars_to_ignore_regex, '', text)
    return text

def map_to_array(batch):
    speech, _ = torchaudio.load(batch["path"])
    batch["speech"] = resampler.forward(speech.squeeze(0)).numpy()
    batch["sampling_rate"] = resampler.new_freq
    batch["sentence"] = normalize_text(batch["sentence"])
    return batch

ds = ds.map(map_to_array)

resampler = torchaudio.transforms.Resample(48_000, 16_000)
def map_to_pred(batch):
    features = processor(batch["speech"], sampling_rate=batch["sampling_rate"][0], padding=True, return_tensors="pt")
    input_values = features.input_values.to(device)
    attention_mask = features.attention_mask.to(device)
    with torch.no_grad():
        logits = model(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    batch["predicted"] = processor.batch_decode(pred_ids)
    batch["target"] = batch["sentence"]
    # remove duplicates
    batch["target"] = re.sub('\.+', '.', batch["target"])
    batch["target"] = re.sub('\?+', '?', batch["target"])
    batch["target"] = re.sub('!+', '!', batch["target"])
    batch["target"] = re.sub(',+', ',', batch["target"])
    return batch

result = ds.map(map_to_pred, batched=True, batch_size=16, remove_columns=list(ds.features.keys()))
wer = load_metric("wer")
print(wer.compute(predictions=result["predicted"], references=result["target"]))

💻 使用示例

基礎用法

上述代碼展示瞭如何加載模型、處理數據並進行預測，同時計算詞錯誤率（WER）。

高級用法

可以根據實際需求修改代碼，例如調整批量大小、更換數據集等。

📚 詳細文檔

模型信息

屬性	詳情
模型類型	wav2vec2-large-xlsr-53-French_punctuation
訓練數據	Common Voice法語數據集
許可證	Apache-2.0

評估結果

模型評估指標

該模型在Common Voice法語測試集上的評估結果如下：

文本+標點預測：WER = 21.47%，CER = 7.21%
無標點文本：WER = 19.71%，CER = 6.91%

部分預測示例

參考文本	預測文本
il vécut à new york et y enseigna une grande partie de sa vie.	il a vécu à new york et y enseigna une grande partie de sa vie.
au classement par nations, l'allemagne est la tenante du titre.	au classement der nation l'allemagne est la tenante du titre.
voici un petit calcul pour fixer les idées.	voici un petit calcul pour fixer les idées.
oh! tu dois être beau avec	oh! tu dois être beau avec.
babochet vous le voulez?	baboche, vous le voulez?
la commission est, par conséquent, défavorable à cet amendement.	la commission est, par conséquent, défavorable à cet amendement.