🚀 UniSpeech - SAT - Base - 微调 - 100h - Libri
这是一个基于 微软的UniSpeech 的语音识别模型。它是在16kHz采样的语音音频上,对 unispeech - sat - base模型 在100小时的LibriSpeech数据集上进行微调得到的。使用该模型时,请确保输入的语音也采样为16kHz。
🚀 快速开始
模型信息
属性 |
详情 |
模型类型 |
基于UniSpeech - SAT - Base微调的语音识别模型 |
训练数据 |
100小时的 LibriSpeech |
模型使用
要对音频文件进行转录,该模型可以作为独立的声学模型使用,示例代码如下:
from transformers import Wav2Vec2Processor, UniSpeechSatForCTC
from datasets import load_dataset
import torch
processor = Wav2Vec2Processor.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
model = UniSpeechSatForCTC.from_pretrained("microsoft/unispeech-sat-base-100h-libri-ft")
ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
input_values = processor(ds[0]["audio"]["array"], return_tensors="pt", padding="longest").input_values
logits = model(input_values).logits
predicted_ids = torch.argmax(logits, dim=-1)
transcription = processor.batch_decode(predicted_ids)
📚 详细文档
论文信息
论文:UNISPEECH - SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE - TRAINING
作者:Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu
摘要
自监督学习(SSL)是语音处理领域的一个长期目标,因为它利用了大规模的无标签数据,避免了大量的人工标注。近年来,自监督学习在语音识别中的应用取得了巨大成功,但在将SSL应用于说话人特征建模方面的探索有限。在本文中,我们旨在改进现有的用于说话人表示学习的SSL框架。我们引入了两种方法来增强无监督说话人信息提取。首先,我们将多任务学习应用于当前的SSL框架,将基于话语的对比损失与SSL目标函数相结合。其次,为了更好地区分说话人,我们提出了一种用于数据增强的话语混合策略,在训练过程中无监督地创建额外的重叠话语并将其纳入训练。我们将所提出的方法集成到HuBERT框架中。在SUPERB基准测试上的实验结果表明,所提出的系统在通用表示学习方面取得了最先进的性能,特别是在面向说话人识别的任务中。我们进行了消融实验,验证了每个提出方法的有效性。最后,我们将训练数据集扩展到9.4万小时的公共音频数据,并在所有SUPERB任务中进一步提高了性能。
原始模型
原始模型可在 https://github.com/microsoft/UniSpeech/tree/main/UniSpeech - SAT 找到。
📄 许可证
官方许可证可在 此处 找到。

🔗 贡献者
该模型由 cywang 和 patrickvonplaten 贡献。