W

Wav2vec2 Base Toy Train Data Slow 10pct

由 scasutt 开发
基于facebook/wav2vec2-base模型在未知数据集上微调的语音识别模型,词错误率(WER)为0.7175
下载量 22
发布时间 : 3/27/2022

模型简介

该模型是wav2vec2-base的微调版本,主要用于语音识别任务。模型在评估集上表现出一定的识别能力,但仍有改进空间。

模型特点

基于wav2vec2-base微调
在基础wav2vec2模型上进行微调,适应特定语音识别任务
线性学习率调度
采用线性学习率调度策略,配合1000步的预热期
梯度累积训练
使用梯度累积(步数=2)来增加有效批次大小

模型能力

语音转文本
自动语音识别

使用案例

语音转录
会议记录转录
将会议录音转换为文字记录
词错误率0.7175
语音指令识别
识别简单的语音指令
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase