U

Unispeech Sat Base 100h Libri Ft

由 microsoft 开发
基于UniSpeech-SAT基础模型,在LibriSpeech语音数据上进行了100小时微调的自动语音识别模型
下载量 643
发布时间 : 3/2/2022

模型简介

这是一个专门用于自动语音识别(ASR)的模型,基于微软的UniSpeech-SAT架构,通过自监督学习增强说话人表征能力,适用于英语语音转文本任务

模型特点

说话人感知预训练
通过结合语句级对比损失与SSL目标函数,增强说话人表征学习能力
语句混合数据增强
采用创新的语句混合策略,在训练中无监督生成重叠语句,提升模型区分说话人的能力
大规模预训练
原始模型使用9.4万小时公开音频数据进行预训练,具有强大的泛化能力

模型能力

英语语音识别
说话人特征提取
16kHz采样音频处理

使用案例

语音转文本
语音转录
将英语语音内容转换为文本
在LibriSpeech数据集上表现良好
语音分析
说话人识别
提取语音中的说话人特征
论文显示在SUPERB基准测试中表现优异
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase