unispeech-1350-en-17h-ky-ft-1h开源语音识别模型 - 精准识别吉尔吉斯语语音！

首页

Unispeech 1350 En 17h Ky Ft 1h

由 microsoft 开发

基于微软UniSpeech架构的语音识别模型，专门针对吉尔吉斯语进行微调

语音识别

Transformers

其他#多任务语音表征 #音素级ASR #低资源语言优化

下载量 39

发布时间 : 3/2/2022

模型简介

该模型是基于16kHz采样语音音频和音素标签预训练的大模型，并在1小时的吉尔吉斯语音素数据上微调。主要用于吉尔吉斯语的自动语音识别任务。

模型特点

多任务学习

结合监督式音素CTC学习和音素感知对比自监督学习

跨语言泛化能力

通过统一预训练方法提升跨语言和跨领域的泛化能力

高效微调

仅需1小时的吉尔吉斯语音素数据即可完成微调

模型能力

吉尔吉斯语语音识别

音素序列预测

跨语言语音表征学习

使用案例

语音识别

吉尔吉斯语语音转文本

将吉尔吉斯语语音转换为音素序列或文本

相比自监督预训练和监督迁移学习，分别最高可降低13.4%和17.8%的相对音素错误率

语音技术研究

跨语言语音表征研究

用于研究语音表征的跨语言迁移能力

在领域迁移语音识别任务中实现6%的相对词错误率下降

🚀 吉尔吉斯语版UniSpeech-Large-plus

吉尔吉斯语版的UniSpeech-Large-plus是基于语音音频和音素标签预训练的大模型，它在1小时的吉尔吉斯语音素数据上进行了微调。该模型能够有效处理语音识别任务，为吉尔吉斯语的语音处理提供了强大的支持。

🚀 快速开始

本模型是在音素分类任务上进行微调的语音模型。在使用该模型时，请确保输入的语音采样率为16kHz，并将文本转换为音素序列。

✨ 主要特性

基于Microsoft's UniSpeech架构，结合了有标签和无标签数据进行统一预训练。
在公开的CommonVoice语料库上进行跨语言表示学习，实验结果表明，相比自监督预训练和监督迁移学习，该模型在语音识别任务上分别最多可降低13.4%和17.8%的相对音素错误率（所有测试语言的平均值）。
在领域转移语音识别任务中也表现出良好的可迁移性，相对词错误率比之前的方法降低了6%。

📚 详细文档

论文信息

标题：UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
作者：Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang
摘要：在本文中，我们提出了一种名为UniSpeech的统一预训练方法，用于利用有标签和无标签数据学习语音表示。在该方法中，监督音素CTC学习和音素感知对比自监督学习以多任务学习的方式进行。学习得到的表示能够捕获与音素结构更相关的信息，并提高跨语言和跨领域的泛化能力。我们在公共CommonVoice语料库上评估了UniSpeech在跨语言表示学习中的有效性。结果表明，对于语音识别任务，UniSpeech相对于自监督预训练和监督迁移学习，分别最多可降低13.4%和17.8%的相对音素错误率（所有测试语言的平均值）。在领域转移语音识别任务中，也证明了UniSpeech的可迁移性，即相对于之前的方法，相对词错误率降低了6%。

模型信息

属性	详情
模型类型	语音识别模型，在音素分类任务上微调
训练数据	16kHz采样的语音音频和音素标签，在1小时的吉尔吉斯语音素数据上微调

原模型地址

原模型可在https://github.com/microsoft/UniSpeech/tree/main/UniSpeech找到。

💻 使用示例

基础用法

import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F

model_id = "microsoft/unispeech-1350-en-17h-ky-ft-1h"

sample = next(iter(load_dataset("common_voice", "ky", split="test", streaming=True)))
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()

model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)

input_values = processor(resampled_audio, return_tensors="pt").input_values

with torch.no_grad():
    logits = model(input_values).logits

prediction_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(prediction_ids)