wav2vec2-large-xlsr-53-english开源英语语音识别模型

首页

Wav2vec2 Large Xlsr 53 English

由 jonatasgrosman 开发

基于facebook/wav2vec2-large-xlsr-53模型微调的英语语音识别模型，在Common Voice 6.1数据集上训练

语音识别英语开源协议:Apache-2.0 #英语语音识别 #XLSR微调 #低词错误率

下载量 251.78k

发布时间 : 3/2/2022

模型简介

这是一个针对英语语音识别任务微调的XLSR-53大模型，能够将英语语音转换为文本

模型特点

高性能英语语音识别

在Common Voice测试集上达到19.06%的词错误率和7.69%的字错误率

支持语言模型增强

结合语言模型后，词错误率可降至14.81%，字错误率降至6.84%

16kHz采样率支持

专为16kHz采样率的语音输入优化

基于XLSR-53预训练模型

利用大规模跨语言语音表示学习(XLSR)的预训练优势

模型能力

英语语音识别

语音转文本

支持长音频处理(通过分块)

使用案例

语音转录

会议记录自动转录

将英语会议录音自动转换为文字记录

准确率约80.94%(基于WER)

语音笔记转换

将个人语音备忘录转换为可搜索的文本

辅助技术

实时字幕生成

为英语视频或直播生成实时字幕

🚀 用于英语语音识别的微调XLSR - 53大模型

本项目是在英语数据集上对 facebook/wav2vec2-large-xlsr-53 进行微调的成果。使用了 Common Voice 6.1 的训练集和验证集进行训练。使用此模型时，请确保语音输入的采样率为 16kHz。

该模型的微调得益于 OVHcloud 慷慨提供的 GPU 计算资源。训练脚本可在此处找到。

📦 模型信息

属性	详情
数据集	common_voice、mozilla - foundation/common_voice_6_0
评估指标	WER（词错误率）、CER（字符错误率）
标签	audio、automatic - speech - recognition、en、hf - asr - leaderboard、mozilla - foundation/common_voice_6_0、robust - speech - event、speech、xlsr - fine - tuning - week
许可证	apache - 2.0

模型评估结果

任务	数据集	评估指标	值
自动语音识别	Common Voice en	测试 WER	19.06
自动语音识别	Common Voice en	测试 CER	7.69
自动语音识别	Common Voice en	测试 WER (+LM)	14.81
自动语音识别	Common Voice en	测试 CER (+LM)	6.84
自动语音识别	Robust Speech Event - Dev Data	开发集 WER	27.72
自动语音识别	Robust Speech Event - Dev Data	开发集 CER	11.65
自动语音识别	Robust Speech Event - Dev Data	开发集 WER (+LM)	20.85
自动语音识别	Robust Speech Event - Dev Data	开发集 CER (+LM)	11.01

💻 使用示例

基础用法

使用 HuggingSound 库：

from huggingsound import SpeechRecognitionModel

model = SpeechRecognitionModel("jonatasgrosman/wav2vec2-large-xlsr-53-english")
audio_paths = ["/path/to/file.mp3", "/path/to/another_file.wav"]

transcriptions = model.transcribe(audio_paths)

高级用法

编写自己的推理脚本：

import torch
import librosa
from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

LANG_ID = "en"
MODEL_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-english"
SAMPLES = 10

test_dataset = load_dataset("common_voice", LANG_ID, split=f"test[:{SAMPLES}]")

processor = Wav2Vec2Processor.from_pretrained(MODEL_ID)
model = Wav2Vec2ForCTC.from_pretrained(MODEL_ID)

# Preprocessing the datasets.
# We need to read the audio files as arrays
def speech_file_to_array_fn(batch):
    speech_array, sampling_rate = librosa.load(batch["path"], sr=16_000)
    batch["speech"] = speech_array
    batch["sentence"] = batch["sentence"].upper()
    return batch

test_dataset = test_dataset.map(speech_file_to_array_fn)
inputs = processor(test_dataset["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

with torch.no_grad():
    logits = model(inputs.input_values, attention_mask=inputs.attention_mask).logits

predicted_ids = torch.argmax(logits, dim=-1)
predicted_sentences = processor.batch_decode(predicted_ids)

for i, predicted_sentence in enumerate(predicted_sentences):
    print("-" * 100)
    print("Reference:", test_dataset[i]["sentence"])
    print("Prediction:", predicted_sentence)

预测结果示例

参考文本	预测文本
"SHE'LL BE ALL RIGHT."	SHE'LL BE ALL RIGHT
SIX	SIX
"ALL'S WELL THAT ENDS WELL."	ALL AS WELL THAT ENDS WELL
DO YOU MEAN IT?	DO YOU MEAN IT
THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE, BUT STILL CAUSES REGRESSIONS.	THE NEW PATCH IS LESS INVASIVE THAN THE OLD ONE BUT STILL CAUSES REGRESSION
HOW IS MOZILLA GOING TO HANDLE AMBIGUITIES LIKE QUEUE AND CUE?	HOW IS MOSLILLAR GOING TO HANDLE ANDBEWOOTH HIS LIKE Q AND Q
"I GUESS YOU MUST THINK I'M KINDA BATTY."	RUSTIAN WASTIN PAN ONTE BATTLY
NO ONE NEAR THE REMOTE MACHINE YOU COULD RING?	NO ONE NEAR THE REMOTE MACHINE YOU COULD RING
SAUCE FOR THE GOOSE IS SAUCE FOR THE GANDER.	SAUCE FOR THE GUICE IS SAUCE FOR THE GONDER
GROVES STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD.	GRAFS STARTED WRITING SONGS WHEN SHE WAS FOUR YEARS OLD

🔧 模型评估

评估 `mozilla - foundation/common_voice_6_0` 测试集

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset mozilla-foundation/common_voice_6_0 --config en --split test

评估 `speech - recognition - community - v2/dev_data` 开发集

python eval.py --model_id jonatasgrosman/wav2vec2-large-xlsr-53-english --dataset speech-recognition-community-v2/dev_data --config en --split validation --chunk_length_s 5.0 --stride_length_s 1.0

📄 引用信息

如果您想引用此模型，可以使用以下 BibTeX 格式：

@misc{grosman2021xlsr53-large-english,
  title={Fine-tuned {XLSR}-53 large model for speech recognition in {E}nglish},
  author={Grosman, Jonatas},
  howpublished={\url{https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-english}},
  year={2021}
}