sew-d-mid-400k-ft-ls100h开源语音预训练模型 - 高效完成自动语音识别任务

首页

Sew D Mid 400k Ft Ls100h

由 asapp 开发

SEW-D-mid是由ASAPP Research开发的语音预训练模型，专注于自动语音识别任务，在性能和效率之间取得了良好平衡。

语音识别

Transformers

英语开源协议:Apache-2.0 #高效语音识别 #低词错误率 #16kHz音频处理

下载量 20

发布时间 : 3/2/2022

模型简介

该模型是基于SEW架构的语音预训练模型，在16kHz采样的语音音频上进行预训练，适用于自动语音识别、说话人识别、意图分类等下游任务。

模型特点

高效性能平衡

相比wav2vec 2.0实现了1.9倍推理加速，同时词错误率相对降低13.5%

多任务适用性

可在多种语音相关下游任务上微调，包括ASR、说话人识别、意图分类等

优化架构设计

采用SEW架构，综合多种优化设计提升模型效率

模型能力

语音识别

语音特征提取

音频内容理解

使用案例

语音转录

会议记录转录

将会议录音自动转录为文字记录

在LibriSpeech clean测试集上WER为4.94

语音指令识别

识别和理解语音指令

语音分析

说话人识别

识别语音中的说话人特征

🚀 SEW-D-mid

SEW-D-mid 是基于 16kHz 采样语音音频预训练的基础模型。该模型由 ASAPP Research 开发，相关信息可参考 SEW-D by ASAPP Research。使用此模型时，需确保输入的语音也采样为 16kHz。请注意，该模型需要在下游任务（如自动语音识别、说话人识别、意图分类、情感识别等）上进行微调。

论文：Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

作者：Felix Wu、Kwangyoun Kim、Jing Pan、Kyu Han、Kilian Q. Weinberger、Yoav Artzi

摘要本文研究了自动语音识别（ASR）预训练模型中的性能 - 效率权衡问题。我们聚焦于 wav2vec 2.0，并对影响模型性能和效率的几种架构设计进行了形式化。综合所有观察结果，我们提出了 SEW（Squeezed and Efficient Wav2vec），这是一种在各种训练设置下，在性能和效率方面都有显著改进的预训练模型架构。例如，在 LibriSpeech 的 100h - 960h 半监督设置下，与 wav2vec 2.0 相比，SEW 的推理速度提高了 1.9 倍，词错误率相对降低了 13.5%。在推理时间相近的情况下，SEW 在不同模型大小下将词错误率降低了 25 - 50%。

原始模型可在 https://github.com/asappresearch/sew#model-checkpoints 找到。

🚀 快速开始

模型信息

属性	详情
模型类型	语音处理模型
训练数据	LibriSpeech 数据集
标签	音频、语音、自动语音识别、HF 自动语音识别排行榜
许可证	Apache-2.0

示例音频

评估结果

数据集	测试词错误率 (WER)
LibriSpeech (clean)	4.94
LibriSpeech (other)	11.51

✨ 主要特性

基于 16kHz 采样语音音频进行预训练。
可应用于多种下游任务，如自动语音识别、说话人识别等。
在性能和效率方面有显著改进。

📦 安装指南

文档未提及安装步骤，暂不提供。

💻 使用示例

基础用法

以下代码展示了如何将该模型作为独立的声学模型来转录音频文件：

from transformers import Wav2Vec2Processor, SEWDForCTC
from datasets import load_dataset
import soundfile as sf
import torch

# 加载模型和预处理器
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-mid-400k-ft-ls100h")
model = SEWDForCTC.from_pretrained("asapp/sew-d-mid-400k-ft-ls100h")

# 加载包含语音样本的虚拟数据集
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")

# 预处理
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # 批量大小为 1

# 获取 logits
logits = model(input_values).logits

# 取最大值并解码
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)

高级用法

以下代码展示了如何在 LibriSpeech 的 “clean” 和 “other” 测试数据上评估 asapp/sew-d-mid-400k-ft-ls100hh 模型：

from datasets import load_dataset
from transformers import SEWDForCTC, Wav2Vec2Processor
import torch
from jiwer import wer

librispeech_eval = load_dataset("librispeech_asr", "clean", split="test")

model = SEWDForCTC.from_pretrained("asapp/sew-d-mid-400k-ft-ls100h").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("asapp/sew-d-mid-400k-ft-ls100h")

def map_to_pred(batch):
    input_values = processor(batch["audio"][0]["array"], sampling_rate=16000, 
                             return_tensors="pt", padding="longest").input_values
    with torch.no_grad():
        logits = model(input_values.to("cuda")).logits

    predicted_ids = torch.argmax(logits, dim=-1)
    transcription = processor.batch_decode(predicted_ids)
    batch["transcription"] = transcription
    return batch

result = librispeech_eval.map(map_to_pred, batched=True, batch_size=1, remove_columns=["audio"])

print("WER:", wer(result["text"], result["transcription"]))