wav2vec2-large-xlsr-53-english開源英語語音識別模型

首頁

Wav2vec2 Large Xlsr 53 English

由jonatasgrosman開發

基於facebook/wav2vec2-large-xlsr-53模型微調的英語語音識別模型，在Common Voice 6.1數據集上訓練

語音識別英語開源協議:Apache-2.0 #英語語音識別 #XLSR微調 #低詞錯誤率

下載量 251.78k

發布時間 : 3/2/2022

模型概述

這是一個針對英語語音識別任務微調的XLSR-53大模型，能夠將英語語音轉換為文本

模型特點

高性能英語語音識別

在Common Voice測試集上達到19.06%的詞錯誤率和7.69%的字錯誤率

支持語言模型增強

結合語言模型後，詞錯誤率可降至14.81%，字錯誤率降至6.84%

16kHz採樣率支持

專為16kHz採樣率的語音輸入優化

基於XLSR-53預訓練模型

利用大規模跨語言語音表示學習(XLSR)的預訓練優勢

模型能力

英語語音識別

語音轉文本

支持長音頻處理(通過分塊)

使用案例

語音轉錄

會議記錄自動轉錄

將英語會議錄音自動轉換為文字記錄

準確率約80.94%(基於WER)

語音筆記轉換

將個人語音備忘錄轉換為可搜索的文本

輔助技術

即時字幕生成

為英語視頻或直播生成即時字幕

🚀 用於英語語音識別的微調XLSR - 53大模型

本項目是在英語數據集上對 facebook/wav2vec2-large-xlsr-53 進行微調的成果。使用了 Common Voice 6.1 的訓練集和驗證集進行訓練。使用此模型時，請確保語音輸入的採樣率為 16kHz。

該模型的微調得益於 OVHcloud 慷慨提供的 GPU 計算資源。訓練腳本可在此處找到。

📦 模型信息

屬性	詳情
數據集	common_voice、mozilla - foundation/common_voice_6_0
評估指標	WER（詞錯誤率）、CER（字符錯誤率）
標籤	audio、automatic - speech - recognition、en、hf - asr - leaderboard、mozilla - foundation/common_voice_6_0、robust - speech - event、speech、xlsr - fine - tuning - week
許可證	apache - 2.0

模型評估結果

任務	數據集	評估指標	值
自動語音識別	Common Voice en	測試 WER	19.06
自動語音識別	Common Voice en	測試 CER	7.69
自動語音識別	Common Voice en	測試 WER (+LM)	14.81
自動語音識別	Common Voice en	測試 CER (+LM)	6.84
自動語音識別	Robust Speech Event - Dev Data	開發集 WER	27.72
自動語音識別	Robust Speech Event - Dev Data	開發集 CER	11.65
自動語音識別	Robust Speech Event - Dev Data	開發集 WER (+LM)	20.85
自動語音識別	Robust Speech Event - Dev Data	開發集 CER (+LM)	11.01

💻 使用示例

基礎用法

使用 HuggingSound 庫：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高級用法

編寫自己的推理腳本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

預測結果示例

參考文本	預測文本
"SHE'LL BE ALL RIGHT."	SHE'LL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALL AS WELL THAT ENDS WELL
DO YOU MEAN IT?	DO YOU MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTIAN WASTIN PAN ONTE BATTLY
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUICE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

🔧 模型評估

評估 `mozilla - foundation/common_voice_6_0` 測試集

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test

評估 `speech - recognition - community - v2/dev_data` 開發集

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 引用信息

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021xlsr53-large-english,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {E}nglish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
  year={2021}
}