🚀 吉尔吉斯语版UniSpeech-Large-plus
吉尔吉斯语版的UniSpeech-Large-plus是基于语音音频和音素标签预训练的大模型,它在1小时的吉尔吉斯语音素数据上进行了微调。该模型能够有效处理语音识别任务,为吉尔吉斯语的语音处理提供了强大的支持。
🚀 快速开始
本模型是在音素分类任务上进行微调的语音模型。在使用该模型时,请确保输入的语音采样率为16kHz,并将文本转换为音素序列。
✨ 主要特性
- 基于Microsoft's UniSpeech架构,结合了有标签和无标签数据进行统一预训练。
- 在公开的CommonVoice语料库上进行跨语言表示学习,实验结果表明,相比自监督预训练和监督迁移学习,该模型在语音识别任务上分别最多可降低13.4%和17.8%的相对音素错误率(所有测试语言的平均值)。
- 在领域转移语音识别任务中也表现出良好的可迁移性,相对词错误率比之前的方法降低了6%。
📚 详细文档
论文信息
- 标题:UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
- 作者:Chengyi Wang, Yu Wu, Yao Qian, Kenichi Kumatani, Shujie Liu, Furu Wei, Michael Zeng, Xuedong Huang
- 摘要:在本文中,我们提出了一种名为UniSpeech的统一预训练方法,用于利用有标签和无标签数据学习语音表示。在该方法中,监督音素CTC学习和音素感知对比自监督学习以多任务学习的方式进行。学习得到的表示能够捕获与音素结构更相关的信息,并提高跨语言和跨领域的泛化能力。我们在公共CommonVoice语料库上评估了UniSpeech在跨语言表示学习中的有效性。结果表明,对于语音识别任务,UniSpeech相对于自监督预训练和监督迁移学习,分别最多可降低13.4%和17.8%的相对音素错误率(所有测试语言的平均值)。在领域转移语音识别任务中,也证明了UniSpeech的可迁移性,即相对于之前的方法,相对词错误率降低了6%。
模型信息
属性 |
详情 |
模型类型 |
语音识别模型,在音素分类任务上微调 |
训练数据 |
16kHz采样的语音音频和音素标签,在1小时的吉尔吉斯语音素数据上微调 |
原模型地址
原模型可在https://github.com/microsoft/UniSpeech/tree/main/UniSpeech找到。
💻 使用示例
基础用法
import torch
from datasets import load_dataset
from transformers import AutoModelForCTC, AutoProcessor
import torchaudio.functional as F
model_id = "microsoft/unispeech-1350-en-17h-ky-ft-1h"
sample = next(iter(load_dataset("common_voice", "ky", split="test", streaming=True)))
resampled_audio = F.resample(torch.tensor(sample["audio"]["array"]), 48_000, 16_000).numpy()
model = AutoModelForCTC.from_pretrained(model_id)
processor = AutoProcessor.from_pretrained(model_id)
input_values = processor(resampled_audio, return_tensors="pt").input_values
with torch.no_grad():
logits = model(input_values).logits
prediction_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(prediction_ids)
🤝 贡献者
该模型由cywang和patrickvonplaten贡献。
📄 许可证
官方许可证可在这里找到。
📊 官方结果
查看 UniSpeeech-L^{+} - ky 的结果:
