W

Wav2vec2 Large Voxpopuli Sv Swedish

由 KBLab 开发
该模型是基于Facebook的VoxPopuli-sv large模型,额外使用瑞典广播节目、NST和Common Voice数据进行了预训练和微调的瑞典语语音识别模型。
下载量 38.78k
发布时间 : 3/2/2022

模型简介

一个针对瑞典语的自动语音识别(ASR)模型,基于Wav2vec 2.0架构,在多种瑞典语数据集上进行了训练和微调。

模型特点

多数据集训练
在瑞典本地广播节目、NST和Common Voice数据集上进行了预训练和微调
高性能
在NST + Common Voice测试集上WER为3.95%,在Common Voice测试集上WER为10.99%
支持语言模型集成
使用4-gram语言模型可将Common Voice测试集WER从10.99%降至7.82%

模型能力

瑞典语语音识别
16kHz音频处理

使用案例

语音转文字
广播节目转录
将瑞典语广播节目自动转录为文字
WER 3.95%(在NST + Common Voice测试集上)
通用语音识别
将瑞典语语音转换为文字
WER 10.99%(在Common Voice测试集上)
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase