P

Psst Fairseq Rir

由 birgermoell 开发
该模型是基于Wav2vec 2.0基础架构微调的自动语音识别(ASR)模型,使用经过房间脉冲响应(RIR)增强的TIMIT子集训练
下载量 30
发布时间 : 4/15/2022

模型简介

用于英语音素识别的语音识别模型,在噪声增强环境下表现良好

模型特点

噪声鲁棒性
使用RIR增强数据训练,对噪声环境下的语音识别具有较强鲁棒性
音素级识别
专注于音素级别的语音识别任务,而非单词或句子识别
基于Wav2vec 2.0
利用Wav2vec 2.0的自监督学习能力,在小规模标注数据上表现良好

模型能力

英语音素识别
噪声环境语音处理

使用案例

语音技术研究
音素识别基准测试
可作为音素识别任务的基准模型进行比较
PER: 21.8%, FER: 9.6%
教育技术
发音评估
用于语言学习中的发音准确度评估
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase