wav2vec2-large-xlsr-53-french開源模型 - 高準確率法語語音轉文本支持

首頁

Wav2vec2 Large Xlsr 53 French

由jonatasgrosman開發

這是一個基於XLSR-53大模型微調的法語語音識別模型，在Common Voice數據集上訓練，支持高準確率的法語語音轉文本。

語音識別法語開源協議:Apache-2.0 #法語語音識別 #低詞錯誤率 #XLSR-53微調

下載量 47.83k

發布時間 : 3/2/2022

模型概述

該模型是針對法語優化的自動語音識別(ASR)系統，基於Facebook的wav2vec2-large-xlsr-53架構微調，能夠將法語語音轉換為文本。

模型特點

高精度法語識別

在Common Voice法語測試集上達到17.65%的詞錯誤率(WER)和4.89%的字錯誤率(CER)

支持語言模型增強

結合語言模型後，WER可降至13.59%，CER降至3.91%，顯著提升識別準確率

16kHz採樣率支持

專為16kHz採樣率的語音輸入優化，適合大多數語音應用場景

開源許可

採用Apache-2.0許可證，允許商業和研究用途

模型能力

法語語音識別

即時語音轉文本

批量音頻處理

使用案例

語音轉錄

法語語音轉文字

將法語語音內容轉換為可編輯的文本格式

在標準測試集上達到83%以上的準確率

語音助手

法語語音指令識別

用於法語語音助手或控制系統的語音指令識別

🚀 用於法語語音識別的微調XLSR - 53大模型

本項目是基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice 6.1的訓練集和驗證集對法語進行微調的語音識別模型。使用該模型時，請確保語音輸入的採樣率為16kHz。

此模型的微調得益於OVHcloud慷慨提供的GPU計算資源。訓練腳本可在以下鏈接找到：https://github.com/jonatasgrosman/wav2vec2-sprint

🚀 快速開始

本模型是基於facebook/wav2vec2-large-xlsr-53模型，使用Common Voice 6.1的訓練集和驗證集對法語進行微調得到的。使用該模型時，請確保語音輸入的採樣率為16kHz。

✨ 主要特性

數據集：使用了common_voice和mozilla-foundation/common_voice_6_0數據集進行訓練。
評估指標：使用了字錯率（WER）和字符錯誤率（CER）作為評估指標。
應用場景：適用於法語的自動語音識別任務。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

使用HuggingSound庫：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-french")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "fr"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-french"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

識別結果示例

參考文本	預測文本
"CE DERNIER A ÉVOLUÉ TOUT AU LONG DE L'HISTOIRE ROMAINE."	CE DERNIER ÉVOLUÉ TOUT AU LONG DE L'HISTOIRE ROMAINE
CE SITE CONTIENT QUATRE TOMBEAUX DE LA DYNASTIE ACHÉMÉNIDE ET SEPT DES SASSANIDES.	CE SITE CONTIENT QUATRE TOMBEAUX DE LA DYNASTIE ASHEMÉNID ET SEPT DES SASANDNIDES
"J'AI DIT QUE LES ACTEURS DE BOIS AVAIENT, SELON MOI, BEAUCOUP D'AVANTAGES SUR LES AUTRES."	JAI DIT QUE LES ACTEURS DE BOIS AVAIENT SELON MOI BEAUCOUP DAVANTAGES SUR LES AUTRES
LES PAYS-BAS ONT REMPORTÉ TOUTES LES ÉDITIONS.	LE PAYS-BAS ON REMPORTÉ TOUTES LES ÉDITIONS
IL Y A MAINTENANT UNE GARE ROUTIÈRE.	IL AMNARDIGAD LE TIRAN
HUIT	HUIT
DANS L’ATTENTE DU LENDEMAIN, ILS NE POUVAIENT SE DÉFENDRE D’UNE VIVE ÉMOTION	DANS L'ATTENTE DU LENDEMAIN IL NE POUVAIT SE DÉFENDRE DUNE VIVE ÉMOTION
LA PREMIÈRE SAISON EST COMPOSÉE DE DOUZE ÉPISODES.	LA PREMIÈRE SAISON EST COMPOSÉE DE DOUZE ÉPISODES
ELLE SE TROUVE ÉGALEMENT DANS LES ÎLES BRITANNIQUES.	ELLE SE TROUVE ÉGALEMENT DANS LES ÎLES BRITANNIQUES
ZÉRO	ZEGO

📚 詳細文檔

評估方法

在mozilla-foundation/common_voice_6_0數據集的test分割上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-french --dataset mozilla-foundation/common_voice_6_0 --config fr --split test

在speech-recognition-community-v2/dev_data數據集上進行評估：

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-french --dataset speech-recognition-community-v2/dev_data --config fr --split validation --chunk_length_s 5.0 --stride_length_s 1.0

模型信息

屬性	詳情
模型類型	用於法語語音識別的微調XLSR - 53大模型
訓練數據	common_voice、mozilla-foundation/common_voice_6_0

評估指標

任務	數據集	評估指標	值
自動語音識別	Common Voice fr	測試字錯率（WER）	17.65
自動語音識別	Common Voice fr	測試字符錯誤率（CER）	4.89
自動語音識別	Common Voice fr	測試字錯率（+LM）	13.59
自動語音識別	Common Voice fr	測試字符錯誤率（+LM）	3.91
自動語音識別	Robust Speech Event - Dev Data	開發集字錯率（WER）	34.35
自動語音識別	Robust Speech Event - Dev Data	開發集字符錯誤率（CER）	14.09
自動語音識別	Robust Speech Event - Dev Data	開發集字錯率（+LM）	24.72
自動語音識別	Robust Speech Event - Dev Data	開發集字符錯誤率（+LM）	12.33

📄 許可證

本項目採用Apache 2.0許可證。

🔗 引用信息

如果您想引用此模型，可以使用以下BibTeX格式：

@misc{grosman2021xlsr53-large-french,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {F}rench},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-french}},
  year={2021}
}