wav2vec2-large-robust-ft-swbd-300h开源模型 - 精准优化电话语音识别

首页

Wav2vec2 Large Robust Ft Swbd 300h

由 facebook 开发

该模型是Facebook Wav2Vec2-Large-Robust的微调版本，专门针对电话语音识别任务优化，使用300小时Switchboard电话语音语料库进行微调。

语音识别

Transformers

英语开源协议:Apache-2.0 #电话语音识别 #多领域预训练 #鲁棒性声学模型

下载量 2,543

发布时间 : 3/2/2022

模型简介

一个针对电话语音场景优化的自动语音识别(ASR)模型，在噪声环境下表现优异。支持16kHz采样率的音频输入。

模型特点

多领域预训练

预训练阶段整合了有声书(Libri-Light)、朗读语音(CommonVoice)和电话语音(Switchboard/Fisher)多领域数据

噪声鲁棒性

专门针对含噪声的电话语音场景优化，在Switchboard电话语料上微调300小时

跨领域适应

论文证明使用目标领域未标注数据预训练可显著提升模型在领域内外数据上的表现

模型能力

英语语音转文本

噪声环境语音识别

电话语音转录

使用案例

语音转录服务

客服电话自动转录

将客服中心的通话内容自动转为文字记录

在噪声电话环境下保持较高识别准确率

语音分析

通话内容分析

对商业或研究场景中的电话录音进行内容分析

🚀 Wav2Vec2-Large-Robust在Switchboard上微调

本模型基于Facebook的Wav2Vec2，是在wav2vec2-large-robust模型基础上进行微调得到的。它可用于语音识别任务，能处理多种语音数据，在嘈杂的电话语音数据上表现出色。

🚀 快速开始

本模型是 wav2vec2-large-robust 模型的微调版本。它在以下数据集上进行了预训练：

Libri-Light：来自LibriVox项目的开源有声书籍，是干净的朗读音频数据。
CommonVoice：众包收集的音频数据，包含朗读的文本片段。
Switchboard：电话语音语料库，是嘈杂的电话数据。
Fisher：对话式电话语音，也是嘈杂的电话数据。

随后，该模型在300小时的 Switchboard 电话语音语料库（嘈杂的电话数据）上进行了微调。

使用该模型时，请确保输入的语音采样率为16Khz。

摘要

语音表征的自监督学习是一个非常活跃的研究领域，但大多数工作都集中在单一领域，例如有大量标注和未标注数据的朗读有声书籍。在本文中，我们探索了更通用的设置，即预训练的未标注数据领域与微调的标注数据领域不同，而这两者又可能与测试数据领域不同。我们的实验表明，在预训练期间使用目标领域数据可在各种设置下大幅提高性能。在大规模竞争设置中，我们发现对未标注的领域内数据进行预训练可使在领域内和领域外标注数据上训练的模型之间的差距缩小66% - 73%。这具有明显的实际意义，因为获取未标注的目标领域数据比获取标注数据容易得多。此外，我们发现对多个领域进行预训练可提高在训练期间未见过的领域上的泛化性能。代码和模型将在指定的URL上提供。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

✨ 主要特性

多领域预训练：在多个不同的语音数据集上进行预训练，包括有声书籍、众包语音和电话语音等，增强了模型的泛化能力。
特定领域微调：在Switchboard电话语音语料库上进行微调，使其在嘈杂的电话语音识别任务中表现出色。

📦 安装指南

暂未提供安装步骤相关内容，若有需要，可参考原始模型的安装说明。

💻 使用示例

基础用法

from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC
from datasets import load_dataset
import torch

# 加载模型和处理器
processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-robust-ft-swbd-300h")
model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-robust-ft-swbd-300h")

# 加载虚拟数据集并读取音频文件
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 进行分词
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values  # 批量大小为1

# 获取对数几率
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)