wav2vec2-base-100h开源语音识别模型 - 免费实现高效自动语音识别

首页

Wav2vec2 Base 100h

由 facebook 开发

Wav2Vec2基础版是在16kHz采样的Librispeech语音音频上进行了100小时预训练和微调的自动语音识别模型。

语音识别

Transformers

英语开源协议:Apache-2.0 #低资源语音识别 #16kHz音频处理 #LibriSpeech优化

下载量 4,380

发布时间 : 3/2/2022

模型简介

该模型通过从语音音频中学习强大表示并进行微调，实现了高效的语音识别功能，特别适用于有限标注数据的场景。

模型特点

高效语音表示学习

通过潜在空间掩码处理和量化对比任务，学习强大的语音表示。

低标注数据需求

在有限标注数据下仍能实现高性能，1小时标注数据即可超越之前100小时子集的最先进技术。

高准确率

在Librispeech测试集上达到1.8/3.3的词错误率（WER）。

模型能力

语音识别

音频转文本

英语语音处理

使用案例

语音转录

会议记录自动生成

将会议录音自动转换为文字记录

在干净测试集上词错误率6.1%

语音助手

用于语音助手的语音识别模块

在其他测试集上词错误率13.5%

教育

语言学习应用

帮助语言学习者练习发音和听力

🚀 Wav2Vec2-Base-100h

基于100小时Librispeech数据集预训练和微调的语音识别基础模型，可有效处理16kHz采样的语音音频。

🚀 快速开始

本模型是在16kHz采样的语音音频上，基于100小时的Librispeech数据集进行预训练和微调的基础模型。在使用该模型时，请确保输入的语音也采样为16kHz。

✨ 主要特性

首次证明了从纯语音音频中学习强大的表征，然后在转录语音上进行微调，能够在概念上更简单的同时，超越最佳的半监督方法。
wav2vec 2.0在潜在空间中对语音输入进行掩码处理，并解决了一个基于联合学习的潜在表征量化定义的对比任务。
使用Librispeech的所有标注数据进行实验，在干净/其他测试集上实现了1.8/3.3的字错率（WER）。
当将标注数据量减少到一小时时，wav2vec 2.0在100小时子集上的表现优于之前的最优方法，同时使用的标注数据少了100倍。
仅使用十分钟的标注数据，并在53000小时的未标注数据上进行预训练，仍然可以实现4.8/8.2的字错率（WER），证明了在有限标注数据下进行语音识别的可行性。

📚 详细文档

论文信息

论文链接
作者：Alexei Baevski, Henry Zhou, Abdelrahman Mohamed, Michael Auli

摘要

我们首次证明了，从纯语音音频中学习强大的表征，然后在转录语音上进行微调，能够在概念上更简单的同时，超越最佳的半监督方法。wav2vec 2.0在潜在空间中对语音输入进行掩码处理，并解决了一个基于联合学习的潜在表征量化定义的对比任务。使用Librispeech的所有标注数据进行实验，在干净/其他测试集上实现了1.8/3.3的字错率（WER）。当将标注数据量减少到一小时时，wav2vec 2.0在100小时子集上的表现优于之前的最优方法，同时使用的标注数据少了100倍。仅使用十分钟的标注数据，并在53000小时的未标注数据上进行预训练，仍然可以实现4.8/8.2的字错率（WER）。这证明了在有限标注数据下进行语音识别的可行性。

原始模型

原始模型可在此处找到。

💻 使用示例

基础用法

以下代码展示了如何将该模型作为独立的声学模型来转录音频文件：

 from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
 from datasets import load_dataset
 import soundfile as sf
 import torch
 
 # load model and processor
 processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-100h")
 model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-100h")
 
 # define function to read in sound file
 def map_to_array(batch):
     speech, _ = sf.read(batch["file"])
     batch["speech"] = speech
     return batch
     
 # load dummy dataset and read soundfiles
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
 ds = ds.map(map_to_array)
 
 # tokenize
 input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # Batch size 1
 
 # retrieve logits
 logits = model(input_values).logits
 
 # take argmax and decode
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.batch_decode(predicted_ids)

高级用法

以下代码展示了如何在LibriSpeech的“干净”和“其他”测试数据上评估 facebook/wav2vec2-base-100h 模型：

from datasets import load_dataset
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
import soundfile as sf
import torch
from jiwer import wer


librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-100h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-100h")

def map_to_pred(batch):
    input_values = processor(batch["audio"]["array"], return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["speech"])

print("WER:", wer(result["text"], result["transcription"]))